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Typografische Konventionen 


Diese Masterarbeit verwendet einige typografische Konventionen, die das Ver- 
ständnis des Inhalts unterstützen sollen. 


Kursiv stehen bei erstmaliger Nennung: 


= Begriffe, die definiert werden, 

= Unternehmens- und Produktbezeichnungen, 

=  Software-Applikationen und -bibliotheken sowie 
= selten gebrauchte, fremdsprachige Wörter. 


Innichtproportionaler Schrift stehen: 


= Dateinamen, 
= Quelltext oder Codefragmente und 
= Befehle. 


Alle Auszüge aus Konfigurations-, Quelltext- und JSON-Dateien sowie Shell-Be- 
fehle/Kommandozeilen werden in markierten Listings abgebildet. Innerhalb die- 
ser Listings ist <Wert> ein zu definierender/ersetzender Wert, #Text ein 
Zeilen-Kommentar und [ ... ] der Hinweis für nicht angezeigte Codefragmente. 
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with the virus’ after social media erupted 
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Abbildung 1: Ursprünglicher, mittlerweile gelöschter Tweet von Justine Sacco 
auf Twitter. Bildquelle: Pilkington (2013). 


„Going to Africa. Hope I don’t get AIDS. Just kidding. I’m white!” (Sacco, 2013). 
Mit diesem Tweet verabschiedete sich Justine Sacco, Leiterin der Unternehmens- 
kommunikation des New Yorker Medienunternehmens /nterActiveCorp, am 20. 
Dezember 2013 vor ihrem Flug von London nach Kapstadt. Während sie sich wohl 
der Reichweite ihrer Äußerung nicht bewusst war, entstand binnen kürzester Zeit 
eine Welle der Empörung im Internet — ein sogenannter Shitstorm. Das Hashtag 
#HasJustineLandedYet war ein populärer Begriff auf Twitter (Ronson, 2015). 


© Der/die Autor(en) 2016 
F. Pfaffenberger, Twitter als Basis wissenschaftlicher Studien, 
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Doch nicht nur auf Twitter wurde diese Meldung diskutiert — auch etablierte Print- 
medien thematisierten den Tweet in ihren Online-Ausgaben, wie die New York 
Times (Southall, 2013), der Guardian (Pilkington, 2013), Die Welt (Neumann, 
2013) und der Stern (Noffke, 2013). Nachdem der 6ffentliche Druck auf Sacco 
stieg, erhielt sie noch am selben Tag die Ktindigung. InterActiveCorp entschul- 
digte sich außerdem in einer Stellungnahme für das Verhalten seiner Mitarbeiterin 
(Stelter, 2013). 

Dieser Fall zeigt, welche Bedeutung Twitter in der Gesellschaft einnehmen 
kann. Tweets sind mittlerweile ein beliebtes Mittel zum Verbreiten von Meldun- 
gen in Echtzeit: Beispielsweise kündigte der ehemalige griechische Finanzminis- 
ter Yanis Varoufakis (2015) seinen Rücktritt auf Twitter an, ebenso wie ProSieben 
(2015) das Karriereende seines Entertainers Stefan Raab. Julia Klöckner infor- 
mierte bei der Wahl zum Bundespräsidenten 2009 noch vor der offiziellen Be- 
kanntmachung die Öffentlichkeit über den Wahlausgang (Boie, 2011). Der bisher 
weitverbreitetste Tweet wurde während der Oscar-Verleihung 2014 von der Mo- 
deratorin Ellen DeGeneres geschrieben und über 3,2 Millionen Mal! geteilt (De- 
Generes, 2014). Er zeigte ein Gruppenfoto mehrerer Hollywood-Stars und wurde 
live - als Teil der Show — aufgenommen. 

Twitter dient jedoch häufig nicht nur als Kanal zur einseitigen Bekanntgabe 
von Meldungen, sondern vor allem als Netzwerk zur gegenseitigen Information 
und Interaktion. Besonders im Umfeld der politischen Umwälzungen in Nordaf- 
rika und dem Nahen Osten spielte Twitter eine wichtige Rolle bei der Weitergabe 
von Informationen und der Koordination von Protesten (Bruns, Highfield, & Bur- 
gess, 2013; Lotan et al., 2011). Ägypten und die Türkei sperren beispielsweise 
gelegentlich einzelne Nutzer oder das ganze Portal — etwa bei politischen Aus- 
schreitungen, kritischer Berichterstattung und neuerdings auch nach Anschlägen 
(Gadde, 2014; Kazim, 2015). Diese Maßnahmen sollen — aus der Sichtweise der 
jeweiligen politischen Regime — die Koordination von Protestbewegungen und die 
Weitergabe sensibler oder kritischer Informationen unterbinden. 

Ähnlich reagierten Brüsseler Behörden: Während Razzien im Zuge der Pariser 
Terror-Anschläge im Dezember 2015 bat die Brüsseler Polizei die Twitter-User 
um eine selbst auferlegte Funkstille, damit potentielle Zielpersonen nicht gewarnt 
werden können (Police Fédérale, 2015). Viele Nutzer folgten der Bitte und veröf- 
fentlichten stattdessen Katzenbilder, um kompromittierende Tweets in der Masse 
untergehen zu lassen (Rogers, 2015). Bei den Terroranschlägen in Paris im No- 
vember 2015 kamen viele Meldungen, Bilder und Videos zunächst nicht von der 


! Stand: Februar 2016 


1 Twitter in Gesellschaft und Forschung 15 


Presse, sondern von Privatpersonen in sozialen Medien (Wendling, 2015). Diese 
Beispiele verdeutlichen die Prasenz und Bedeutung, die Twitter vor allem bei Ka- 
tastrophen und Anschlägen, aber auch bei sportlichen und kulturellen Großereig- 
nissen haben kann. 

Soziale Medien im Internet sind in den letzten Jahren rasant gewachsen. Die 
weite Verbreitung des Kurznachrichtendienstes Twitter mit seinen tiber 302 Mil- 
lionen monatlich aktiven Nutzer/-innen und etwa 500 Millionen gesendeten 
Tweets pro Tag (Twitter, Inc., 2015k) steht nur beispielhaft für die Bedeutung 
moderner, internetbasierter Kommunikationskanäle. Statistiken zeigen, dass die 
knapp 56 Millionen deutschen Internetnutzer durchschnittlich 166 Minuten am 
Tag im Internet sind — etwa 39 Prozent nutzen dabei Online-Communities (ARD- 
Werbung Sales & Services GmbH, 2015). In diesem Zusammenhang sehen auch 
Politik, Medien und Unternehmen einen großen Nutzen in sozialen Medien: Sie 
eignen sich zur schnellen, einfachen, kostengünstigen und zeitunabhängigen 
Kommunikation mit den Wählern, Lesern oder Kunden. 

Twitter bietet ein ausführliches, klar strukturiertes und frei zugängliches Da- 
tenset, welches sich sowohl für detaillierte, als auch für breit angelegte Datenana- 
lysen gut eignet. So umfasst ein Datensatz rund 150 Metadaten - neben Tweet und 
Benutzerkonto auch Standortdaten, gewählte Sprache, Zeitzone oder die Vernet- 
zung von Nutzer/-innen. In Abhängigkeit von der Tweetfrequenz ergibt sich ein 
ständig wachsender Datenpool. Aufgrund der standardisierten Struktur und der 
hohen Verfügbarkeit der Daten wird Twitter mittlerweile häufig als Datengrund- 
lage für die wissenschaftliche Forschung in den unterschiedlichsten Disziplinen 
verwendet. Zwischen Januar 2007 und August 2015 finden sich auf Scopus allein 
737 Forschungsarbeiten der Sozialwissenschaften, deren Titel den Begriff Twitter 
beinhalten, wobei die Anzahl an Artikeln in einem Jahr kontinuierlich ansteigt’. 
Daneben befassen sich auch andere Forschungszweige, wie die Medizin, Informa- 
tik, Ingenieurswissenschaften oder Psychologie mit Twitter (siehe auch Kapitel 2). 

Je nach wissenschaftlicher Disziplin, Themensetzung, Datengrundlage, Re- 
chenleistung und Budget ergeben sich dabei viele unterschiedliche Ansätze für die 
wissenschaftliche Verwendung von Twitter-Daten. Die Erhebung kann durch di- 
rektes Abgreifen von Tweets in Echtzeit, die Nutzung kostenfreier oder kosten- 
pflichtiger Online-Aggregatoren oder durch den Erwerb vollständiger Datenban- 
ken bei Datenhändlern vollzogen werden. Bei der Analyse besteht die Wahl zwi- 
schen der Nutzung (kostenpflichtiger) Online-Dienste und der Eigenauswertung 
mit Hilfe von Verarbeitungsprogrammen. Letztere können wiederum Lösungen 


? Eigene Abfrage auf scopus.com. Stand: August 2015. Suchterm: TITLE (twitter) AND 
(LIMIT-TO (SUBJAREA , "SOCI")) 
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out of the box oder Eigenentwicklung auf Basis freier Skriptsprachen sein, wie 
beispielsweise Python. Python ist eine frei verfiigbare, umfangreiche und dennoch 
übersichtliche und leicht anwendbare Programmiersprache mit vielen Erweite- 
rungsmöglichkeiten (s. Kapitel 3.2). 

Trotz der Vielzahl an Studien und respektive an Ansätzen fehlt eine genauere 
Betrachtung und vor allem Bewertung typischer wissenschaftlicher Vorgehens- 
weisen. Ziel dieser Arbeit ist deshalb eine Darstellung mehrerer methodischer An- 
sätze zur Erhebung, Speicherung und Analyse von Twitter-Daten auf Basis von 
Python. In der Arbeit sollen die verschiedenen Erhebungs-, Speicher- und Aus- 
wertungsverfahren näher betrachtet und anhand von Praxisbeispielen hinsichtlich 
ihrer Leistungsfähigkeit und ihres Nutzens für die Forschung bewertet werden. 
Darauf aufbauend wird die Eignung von Twitter als Quelle und Forschungsobjekt 
wissenschaftlicher Analysen erörtert, indem auch Einschränkungen und Heraus- 
forderungen aufgezeigt werden. Dabei liegt der Fokus nicht auf Vollständigkeit, 
sondern auf der Darstellung der Praktikabilität von Methoden anhand ausgewähl- 
ter freier, kostenloser Programme. 

Die Skizzierung einiger wissenschaftlicher Arbeiten unterschiedlicher For- 
schungsbereiche in Kapitel 2 soll nicht nur einen Überblick möglicher Verwen- 
dungszwecke für Twitter-Daten geben, sondern auch den Bedarf einer verglei- 
chenden Darstellung möglicher Verfahren hervorheben. Kapitel 3 dient der Ver- 
mittlung von Grundlagen, indem Twitter, die spezielle Kommunikation auf die- 
sem Portal und die Datenstruktur angesprochen werden. Zudem erfolgt eine kurze 
Einführung in die Programmiersprache Python. Kapitel 4 befasst sich schließlich 
mit der methodischen Abhandlung. Zuerst werden drei Ansätze zum Sammeln von 
Tweets vorgestellt: Abfragen über die beiden Programmschnittstellen? (APIs) 
Streaming API und die REST APIs sowie die Beschaffung von Twitter-Daten über 
Drittanbieter. Diese drei Möglichkeiten werden schließlich in Kapitel 4.1.4 gegen- 
übergestellt und hinsichtlich ihrer unterschiedlichen Eignung für die Datensamm- 
lung bewertet. 

Anschließend vergleicht Kapitel 4.2 zwei gegensätzliche Konzepte zum Spei- 
chern von Tweets: Das Speichern in Einzeldateien und das Einspeisen in Daten- 
banken, wobei ein Hauptaugenmerk auf dem Datenbanksystem MongoDB liegt. 
Daran anknüpfend erfolgt eine Betrachtung verschiedener Ansätze zum Auswer- 
ten der gesammelten Tweets (Kapitel 4.3). Zunächst thematisiert Kapitel 4.3.1 


> Schnittstellen (Application Programming Interfaces, APIs) dienen beispielsweise der Kommunika- 
tion zwischen Datenbank und Nutzer. Über sie werden An- und Abfragen oder — allgemein gesagt — 
Befehle übermittelt und verwaltet. Die Kommunikation zwischen Schnittstelle und Endpunkt erfolgt 
dabei immer auf Quellcode-Ebene. 
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sinnvolle Vorverarbeitungsschritte zur Verbesserung der Datenqualität und Opti- 
mierung der Datenstruktur für eine automatisierte Analyse. Danach werden grund- 
legende, bereits in MongoDB integrierte Verfahren präsentiert und verglichen. 
Darüber hinaus gibt Kapitel 4.3.3 einen Einblick in die computergestützte 
Textanalyse, stellt grundlegende computerlinguistische Untersuchungen vor und 
schließt mit der Durchführung einer einfachen semantischen Analyse ab. 

Schließlich beleuchtet Kapitel 5 die Eignung von Twitter als Quelle wissen- 
schaftlicher Arbeiten, indem beispielsweise die Qualität und Zweckmäßigkeit der 
zur Verfügung gestellten Daten kritisch hinterfragt wird. Darüber hinaus sind auch 
rechtliche Bestimmungen zum Datenschutz und das Fehlen anerkannter Metriken 
von Bedeutung. 


Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung - Nicht kommerziell 4.0 International Lizenz (http://creativecommons.org/licenses/ 
by-nc/4.0/deed.de) veröffentlicht, welche für nicht kommerzielle Zwecke die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Me- 
dium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen 
und angeben, ob Änderungen vorgenommen wurden. 

Etwaige Abbildungen oder sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende oder der 
Quellreferenz nichts anderes ergibt. Sofern solches Drittmaterial nicht unter der genannten Creative Commons Lizenz steht, ist eine Vervielfältigung, Bearbeitung 
oder öffentliche Wiedergabe nur mit vorheriger Zustimmung des betreffenden Rechteinhabers oder auf der Grundlage einschlägiger gesetzlicher Erlaubnisvorschrif- 
ten zulässig. 


O 
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Zahlreiche Studien unterschiedlicher wissenschaftlicher Disziplinen, wie der 
Kommunikationsforschung, Soziologie, Geografie oder Politikwissenschaften, 
beschäftigten sich bereits mit Twitter. In den letzten Jahren stieg vor allem das 
Interesse an der Auswertung geospezifischer Daten, die Rückschlüsse auf Stand- 
orte und Bewegungsmuster liefern können (z.B. Gerätestandort, Zeitzone, Spra- 
che). Beispielsweise nutzten Hawelka et al. (2014) die in Tweets gespeicherten 
Standortdaten zur Erstellung von Bewegungsmustern, indem sie die über einen 
längeren Zeitraum gesammelten Geo-Daten (GPS-Daten und IP-Adressen) von 
Nutzerprofilen verknüpften. Jedoch erkannten Graham, Hale und Gaffney (2014) 
bei einem Vergleich von benutzerdefinierten Profil-Standorten mit GPS-basierten 
Gerätestandorten und Tweet-spezifischen Zeitzonen-Angaben, dass diese Infor- 
mationen häufig voneinander abweichen. Nutzer/-innen geben in ihrem Profil oft 
falsche Wohn- beziehungsweise Aufenthaltsorte an. 

Cheng, Caverlee und Lee (2010) versuchten eine zuverlässigere Lokalisierung 
von Tweets, die unabhängig etwaiger Standortangaben durch die Nutzer ist. Die 
geolinguistische Analyse von Tweets erfolgte hier mithilfe vorhandener Algorith- 
men (Google Geocoding API, Yahoo PlaceFinder), um über den Tweet-Inhalt den 
momentanen Aufenthaltsort abzuleiten. Letztlich erwies sich jedoch eine rein 
technische Auswertung im Vergleich zu einer menschlichen, manuellen Codie- 
rung als nur bedingt verlässlich. 

Carter, Tsagkias und Weerkamp (2011), Gottron und Lipka (2010) sowie Bifet 
und Frank (2010) verweisen hierbei auf elementare Unterschiede zum normalem 
Fließtext, auf den jedoch viele Linguistik-Programme ausgelegt sind: Twitter- 
Meldungen sind auf 140 Zeichen begrenzt, enthalten häufig Abkürzungen, Neolo- 
gismen, mehrsprachige Inhalte und selten eine klare Satzstruktur, wie dies bei nor- 
malen Fließtexten der Fall ist. Dementsprechend können Inhalte leicht fehlgedeu- 
tet werden, weshalb eine programmgestützte Inhaltsanalyse immer mit Vorsicht 
genutzt werden sollte. 
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Das Problem der eingeschrankten Analysierbarkeit von Tweets durch Programme 
betrifft auch andere Forschungszweige, die auf eine automatisierte inhaltliche 
Auswertung angewiesen sind, wie die Sentiment-Forschung. Mithilfe mehrstufi- 
ger Filter- und Verarbeitungsprozesse (Bollen, Pepe, & Mao, 2011; Pak & Paro- 
ubek, 2010), Einbezug zusätzlicher Informationen wie Nutzerdaten (Sriram, 
Fuhry, Demir, Ferhatosmanoglu, & Demirbas, 2010) oder verwandter/ahnlicher 
Tweets (Jiang, Yu, Zhou, Liu, & Zhao, 2007) sowie der Verwendung lernfahiger 
Analyseprogramme (Bifet & Frank, 2010; Carter et al., 2011; Tumasjan, Sprenger, 
Sandner, & Welpe, 2010) können die oben genannten Probleme jedoch einiger- 
maßen kontrolliert werden. Allerdings sollte eine korrekte Einordnung der Stim- 
mung auch den Kontext des Tweets berücksichtigen, was in bisherigen Studien 
nicht gemacht wurde. Dies könnte an der Datenstruktur der Tweets liegen: Tweets 
werden einzeln nach Veröffentlichungszeitpunkt und nicht als zusammenhän- 
gende Konversationen übermittelt. Folglich müssten Unterhaltungen erst manuell 
zusammengefügt werden. 

Studien der Sentiment-Forschung untersuchten beispielsweise den Zusam- 
menhang der aggregierten Stimmung beobachteter Nutzer (= Sentiment) mit Kurs- 
schwankungen, Ölpreisen und medialer Großereignissen (Bollen, Pepe et al., 
2011), die Möglichkeit, mithilfe des aktuellen Stimmungsbildes auf Twitter Akti- 
enkurse vorherzusagen (Bollen, Mao, & Zeng, 2011; Zhang, Fuehres, & Gloor, 
2011). 

Echtzeit-Daten aus Twitter dienten zuletzt auch als Grundlage zur Erkennung 
von Epidemien, wie Influenza (Signorini, Segre, & Polgreen, 2011), beziehungs- 
weise des allgemeinen Gesundheitszustandes der Bevölkerung (Paul & Dredze, 
2011; Scanfeld, Scanfeld, & Larson, 2010). Aramaki, Maskawa und Morita (2011) 
zeigten, dass mithilfe automatisierter Erhebung und Analyseverfahren, wie dem 
Natural Language Processing, Vorhersagen über das Auftreten und den Verlauf 
von Grippe-Wellen machen lassen. Des Weiteren wurden Tweets zur Früherken- 
nung von Erdbeben (Earle, Bowden, & Guy, 2012; Sakai, Okazaki, & Matsuo, 
2010), oder zur Analyse der Kommunikation während Krisen verarbeitet (Acar & 
Muraki, 2011; Heverin & Zach, 2010; Mendoza, Poblete, & Castillo, 2010; Vie- 
weg, Hughes, Starbird, & Palen, 2010). Jedoch besteht auch hier das Problem, dass 
Tweets aufgrund der unkonventionellen Sprache nur schwer automatisiert analy- 
siert werden können. Ähnlich, wie bei der Sentiment-Erkennung, gehen durch den 
fehlenden Miteinbezug des Twitter-Kontextes womöglich viele relevante Infor- 
mationen verloren. 

Ein weiterer Schwerpunkt der Forschung liegt in der Analyse der politischen 
Kommunikation auf beziehungsweise über Twitter. Dabei wurden sowohl Tweets 
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über Politiker/-innen als auch deren Nachrichten und Interaktion mit anderen Nut- 
zern auf Twitter betrachtet. So dienten Echtzeitdaten fiir eine Bewertung von Po- 
litikern wahrend TV-Debatten (Diakopoulos & Shamma, 2010) oder zur Analyse 
der Stimmung während der US-Präsidentschaftswahl 2012 (Wang, Can, Kazemz- 
adeh, Bar, & Narayanan, 2012). 

Umstritten ist die Möglichkeit, mit Hilfe von Twitter-Daten den Ausgang von 
Wahlen zu prognostizieren. Es gibt einige Kontroversen hinsichtlich der Aussage- 
kraft von Tweets und der Zuverlässigkeit der Schätzung. Tumasjan et al. (2010) 
sowie Sang und Bos (2012) sehen in Twitter trotz der eingeschränkten Repräsen- 
tativität der Daten ein relativ zuverlässiges Instrument zur Wahlprognose. Jung- 
herr, Jürgens und Schoen (2012) zeigen jedoch, dass sowohl das Datenmaterial, 
als auch Erhebungszeitpunkt und Auswahl der Parteien keine valide Erhebungs- 
methode darstellen und somit keine verlässlichen Rückschlüsse auf Wahlergeb- 
nisse erlauben. Aufgrund der unterschiedlichen Wähler-Zielgruppen gibt es eine 
Verzerrung hinsichtlich Twitter-Nutzungsverhalten und somit der Tweet-Häufig- 
keit der jeweiligen Partei-Anhängerschaft. Beispielsweise liegt es nahe, dass Un- 
terstützer der Piraten-Partei deutlich häufiger twittern als Anhänger der großen 
Volksparteien. 

Conover et al. (2011) beobachteten während der US-amerikanischen Midterm 
Elections 2010 eine hohe Polarisierung der politisch aktiven Twitter-Nutzer zwi- 
schen linkem und rechten Lager und einer geringen Interaktion zwischen diesen 
Gruppen. Weitere Studien ergaben, dass der Grad politischer Inhalte auf Twitter 
stark von medialen Ereignissen, wie Diskussionsrunden oder Wahlveranstaltun- 
gen, abhängt (Dusch et al., 2015; Larsson & Moe, 2012). Auch ist der Interakti- 
onsgrad zwischen Politikern und „normalen“ Usern eher gering: Politiker verwen- 
den Twitter meist eher als Werbeplattform für politische Veranstaltungen (Dusch 
et al., 2015; Thimm, Einspänner, & Dang-Anh, 2012) beziehungsweise zur Ver- 
breitung ihrer Standpunkte, als zur direkten Interaktion mit ihren Kontakten (Elter, 
2013; Grant, Moon, & Busby Grant, 2010; Parmelee & Bichard, 2012). 

Eine deutlich aktivere politische Partizipation und Kommunikation auf Twitter 
findet dagegen während politischer Proteste und Aufständen statt: Besonders bei 
der Ägyptischen Revolution sowie der Grünen Revolution im Iran spielte Twitter 
eine zentrale Rolle bei der Organisation und Informationsweitergabe (Bruns et al., 
2013). Bei Ereignissen, in denen klassische Massenmedien aufgrund der Rasanz 
der Entwicklungen oder Abwesenheit von Journalisten nicht zeitnah reagieren 
konnten, etablierte sich Twitter als wichtige Plattform für die Produktion und Dis- 
tribution von Nachrichten (Papacharissi & de Fatima Oliveira, 2012). Der Kurz- 
nachrichtendienst diente, aus Mangel an zuverlässigen staatlichen Medien und 
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aufgrund der Unterdrückung freier, kritischer Meinungsäußerungen, hierbei auch 
als Nachrichtenquelle für westliche Medien (Khondker, 2011; Lotan et al., 2011). 
Schließlich befassten sich auch zahlreiche Arbeiten mit der Kommunikation auf 
Twitter an sich: Chen (2011) begründete die Art und Stärke des Nutzungsverhalten 
von Twitter-Usern mit dem Uses and Gratification Ansatz. Je länger die Nutzung 
(hinsichtlich des Zeitraums), desto belohnender wird eine Vernetzung mit anderen 
Nutzern wahrgenommen, wobei die Zahl eigener Tweets und Replies die Stärke 
des Effekts beeinflusst. Liu, Cheung und Lee (2010) sehen vier Dimensionen in- 
nerhalb des Ansatzes, die belohnend auf die Nutzung von Twitter wirken: Content 
(Möglichkeit zur Informationsaufnahme- und Verbreitung), Technology (bequeme 
und unmittelbare Kommunikation), Social (Soziale Interaktion und Vernetzung) 
sowie Process (Unterhaltung, Zeitvertreib), wobei die letzten beiden eine gerin- 
gere Bedeutung haben. Dies wird damit erklärt, dass Twitter ursprünglich nur zum 
Austausch von Informationen konzipiert war und soziale Interaktionsmöglichkei- 
ten erst später implementiert wurden. Auch haben sich Kommunikationsmöglich- 
keiten erst mithilfe von Konventionen, wie Retweets oder direkte User-Verweise 
in Tweets (@username) durchgesetzt (boyd, Golder, & Lotan, 2010; Honeycutt & 
Herring, 2009). 

Cha, Haddadi, Benevenuto und Gummadi (2010) betrachteten die soziale und 
informationelle Komponente hinsichtlich des Einflusses populärer Twitterer. Die 
Wahrscheinlichkeit, dass ein Tweet eine hohe Aufmerksamkeit erhält ist demnach 
weniger von der Vernetzung eines Users, im Sinne von Followern, sondern vom 
Inhalt der Nachricht abhängig. Diese These, dass Twitter eher zum Informations- 
austausch verwendet wird, als zum Knüpfen sozialer Kontakte, unterstützen auch 
Huberman, Romero und Wu (2008), Java, Song, Finin und Tseng (2007) sowie 
Johnson und Yang (2009). 

So unterschiedlich die Forschungsabsichten und Verwendungszwecke bezüg- 
lich Twitter sind, so verschieden sind auch die Methoden zur Datengewinnung und 
Auswertung. Die Erfassung von Twitter-Daten lässt sich dabei in drei Komplexe 
zusammenfassen: Abfragen historischer Daten über die Programmschnittstelle Se- 
arch API, Erhebungen von gesampelten Echtzeitdaten über die Streaming API und 
die Verwendung von Programmen und Datensätzen Dritter (siehe Kapitel 4.1). 
Die hier erwähnten Studien gingen wie folgt vor: boyd, Golder und Lotan (2010), 
Cheng et al. (2010), Diakopoulos und Shamma (2010), Grant et al. (2010), Sakai 
et al. (2010) und Vieweg et al. (2010) nutzen die frei zugängige Search API von 
Twitter, um tiber Suchabfragen historische Daten eines eingeschrankten Zeitraums 
zu erhalten. Bifet und Frank (2010), Graham et al. (2014), Hawelka et al. (2014), 
Sang und Bos (2012) sowie Signorini et al. (2011) griffen dagegen mit Hilfe der 
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Streaming API (gesampelte) Daten in Echtzeit ab. Neben diesen beiden popularen, 
da kostenlosen, Methoden der Datenerhebung auf Twitter, gibt es noch eine Viel- 
zahl von Drittanbietern, die Twitter-Daten gebiihrenpflichtig oder gratis zur Ver- 
fiigung stellen. Conover et al. (2011) erhielten Zugriff auf die sogenannte Garden- 
hose* wogegen Wang et al. (2012) Daten vom Dienstleister Gnip kauften und 
Dusch et al. (2015) sowie Larsson und Moe (2012) Online-Dienste zur Datener- 
fassung nutzen. 

Hinsichtlich der Auswertung von Twitter-Daten ergibt sich ein ähnlich diffe- 
renziertes Bild: Twitter-bezogene Studien fokussieren sich nicht nur auf reine In- 
haltsanalysen, sondern beziehen sich (zusätzlich) auch auf Befragungen oder Ex- 
perimente. Dennoch ist die Inhaltsanalyse nach einer Meta-Studie von Williams, 
Terras und Warwick (2013) eine dominierende Methode, was sich auch auf das 
umfangreiche Datenangebot durch Twitter zurückführen lässt. Die Nutzung der 
bereits vorhandenen, leicht zugänglichen, stark strukturierten und ausführlichen 
Daten ist einfacher und schneller als die Durchführung von Befragungen oder Ex- 
perimenten. Interviews werden häufig nur ergänzend durchgeführt, etwa, um Er- 
gebnisse der Inhaltsanalyse durch ermittelte Einstellungen und Verhalten der Nut- 
zer zu erklären. 

Dennoch fehlen methodische Standards, da die Twitter-Forschung noch sehr 
jung ist (Bruns & Liang, 2012). Ein weiterer Forschungsschwerpunkt liegt deshalb 
in der Konzeption neuer Methoden und Algorithmen zur Analyse der Daten (Wil- 
liams et al., 2013). Einige Forschende entwickeln für ihre Forschungszwecke ei- 
gene Ansätze beziehungsweise Programme zur Twitter-Analyse. Das eigentliche 
methodische Vorgehen, insbesondere die Datengewinnung, wird dabei selten de- 
tailliert präsentiert (Weller, 2014). Trotz der hier dargestellten großen Bandbreite 
an Ansätzen und Verfahren der Twitter-Analyse, gibt es kaum wissenschaftliche 
Arbeiten, die sich mit den Methoden der Datengewinnung und Auswertung befas- 
sen. Wenn überhaupt, wurden nur einzelne Vorgehensweisen angesprochen. 

So zeigen Perera, Anand, Subbalakshmi und Chandramouli (2010), wie mit 
der Programmiersprache Python Twitter-Daten gesammelt und in einem MySOL- 
Datensystem verarbeitet werden können. Tugores und Colet (2013) vergleichen 
für eine Mobilitätsanalyse zwei Varianten von Datenbanksystemen (SQL und 
noSOL) im Kontext einer Twitter-Analyse mit Python. Bruns und Liang (2012) 
präsentierten mehrere Programme zum Erfassen und Analysieren von Tweets 


* Die Daten der öffentlichen Streaming API und REST APIs sind hinsichtlich Datenvolumen und Ab- 
fragehäufigkeit limitiert. Innerhalb der Streaming API bietet die Gardenhose einen größeren Daten- 
umfang als der allgemeine Datenzugang Spritzer, wogegen die Firehose einen Echtzeit-Zugriff auf 
alle Daten ermöglicht (siehe Kapitel 4.1 für eine ausführliche Erläuterung). 
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wahrend Naturkatastrophen. Dennoch findet sich nirgends eine detaillierte Bewer- 
tung der Ansätze. Aufgrund der unterschiedlichen Disziplinen und somit auch For- 
schungsschwerpunkte fehlte auch die spezifische Bewertung dieser Möglichkeiten 
im Hinblick auf die Analyse der Twitter-Kommunikation. 

Kumar, Morstatter und Liu (2014) liefern bisher die umfassendste Übersicht, 
mit welchen Ansätzen Twitter-Daten gesammelt und verarbeitet werden können. 
Jedoch werden auch hier nur ausgewählte Aspekte der Datensammlung und -ana- 
lyse betrachtet und die einzelnen Methoden weder miteinander verglichen, noch 
hinsichtlich ihrer Praktikabilität bei wissenschaftlichen Erhebungen bewertet. 
Eine ähnliche Zielsetzung verfolgt Russell (2013): Anhand zahlreicher fallspezi- 
fischer Beispiele erhält der Leser einen guten Überblick über die Möglichkeiten 
der (nicht nur) Twitter-bezogenen Datenerhebung und Auswertung mittels Py- 
thon, MongoDB und NLTK. Jedoch ist auch hier eine vergleichende und wertende 
Betrachtung — besonders im Hinblick auf die Nützlichkeit für die Forschung — 
nicht vorhanden. 

Es gibt folglich bereits eine Vielzahl an Studien, die sich mit der Kommunika- 
tion auf Twitter beziehungsweise der wissenschaftlichen Auswertung der gene- 
rierten Nutzer-Daten befasst haben. Was fehlt, ist ein vergleichender Überblick 
über Verfahren der Twitter-Analyse für die Sozialwissenschaften. Williams et al. 
(2013) befanden in ihrer Meta-Analyse, dass sich etwa 80% der analysierten Bei- 
träge auf den Inhalt der Tweets sowie die Nutzer und deren Kommunikationsweise 
konzentrierten. Dabei wurde eine Vielzahl unterschiedlichster Methoden zur Er- 
fassung und Analyse von Twitter-Daten angewendet, oftmals sogar mehrere An- 
sätze in einer Arbeit. Demgegenüber war die rein technische Betrachtung von 
Twitter am stärksten unterrepräsentiert. Die Autoren verwiesen hier nicht nur auf 
eine geringere Beimessung an Bedeutung, sondern auch auf mögliche technische 
Barrieren und Verständnisprobleme (Williams et al., 2013, S. 402). 

Aktuelle Verfahren zur Messung der Nutzung von Twitter (und anderen sozi- 
alen Medien) sind weder standardisiert, noch unabhängig bestätigt, sondern funk- 
tionieren cher als eine Art „Black Box“ (Weller, Bruns, Burgess, Mahrt, & Pusch- 
mann, 2014, S. xxxii), deren Ergebnisse Forschende vertrauen müssen. Deshalb 
sollen nach einer theoretischen Einführung in den Dienst Twitter und die hier ver- 
wendete Programmiersprache Python einige gängige Ansätze genauer betrachtet 
und anhand von Fallbeispielen hinsichtlich Praktikabilität und Anwendungsweise 
verglichen werden. 
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3 Grundlagen 


Dieses Kapitel dient der Vermittlung technischer Grundlagen und soll dem Leser 
einen Einblick in den Mikroblogging-Dienst Twitter. Dafiir wird zuerst Twitter 
vorgestellt (Kapitel 3.1), indem auch die Kommunikation auf Twitter charakteri- 
siert sowie Konventionen der Interaktion und allgemeine Begrifflichkeiten erläu- 
tert werden. Anschließend folgen ein Überblick der Datenstruktur und eine Skiz- 
zierung der darin enthaltenen wesentlichen Informationen. Da die vorliegende Ar- 
beit die Programmiersprache Python zur Datensammlung und -analyse verwendet, 
stellt Kapitel 3.2 diese kurz vor und erläutert deren Vorteile hinsichtlich Anwen- 
dung und Verständlichkeit. 


3.1 Post, Reply, Retweet — der Internet-Dienst Twitter 


Twitter ist in erster Linie ein Echtzeit-Internetdienst zum Teilen von auf 140 Zei- 
chen limitierten Text-Nachrichten (Tweets) in einem personalisierten, öffentlichen 
Nachrichtenstrom (Jürgens & Jungherr, 2011, S. 203). Dieser Nachrichtenfeed 
kann von anderen Twitterern abonniert werden, um dadurch jeder neuen Nachricht 
eines Nutzers automatisch zu folgen. Der abonnierende Nutzer wird als Follower 
bezeichnet und ist als dieser öffentlich gekennzeichnet (siehe Kapitel 3.1.2). Die 
Stärke des Dienstes liegt in der schnellen und ungefilterten Verbreitung von Infor- 
mationen (Parmelee & Bichard, 2012, S. 216). Durch die Begrenzung auf 140 Zei- 
chen muss der Nachrichteninhalt auf das Wesentliche konzentriert werden, die ge- 
ringe Länge fördert auch eine gute und schnelle Lesbarkeit. Während in der 
Frühphase der Entwicklung der reine Informationsaustausch im Fokus stand, folg- 
ten in mehreren Entwicklungsschritten weitere Funktionen zur sozialen Interak- 
tion. So ermöglicht die Plattform mittlerweile auch das Weiterleiten von Tweets 
(Retweet), eine explizite Nennung und Verknüpfung anderer Nutzer/-innen in 
Nachrichten (Mention), das Teilen von Fotos, Links und Videos sowie das Schrei- 
ben privater Nachrichten (Direct Message) zu einzelnen Personen oder Gruppen 
(Stone, 2009; Weil, 2014). 
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Twitter ist mittlerweile ein weit verbreiteter Kommunikationskanal mit einer Fülle 
von Anwendungsmöglichkeiten. Beispielweise nutzt die Politik Twitter zur Inter- 
aktion mit (potentiellen) Wahlern, Journalist/-innen zur Verbreitung von Informa- 
tionen (wie Eilmeldungen), Fernsehanstalten als weiteren Kommunikationskanal 
wahrend TV-Sendungen (fiir Kommentare und Feedback) oder Unternehmen als 
Werbekanal mit Hinweisen zu Aktionen oder Produkten (Bruns & Stieglitz, 2012; 
Grant et al., 2010; Jansen, Zhang, Sobel, & Chowdury, 2009; Jungherr, 2015; 
Lasorsa, Lewis, & Holton, 2012; Mamic & Almaraz, 2014). Hinzu kommt eine 
vielfaltige Anwendung als Kommunikationskanal zwischen sich gegenseitig be- 
kannten oder unbekannten Personen - von der „normalen“ Nutzung im Alltag bis 
zur Interaktion während politischer Krisen, wie der des sogenannten Arabischen 
Frühlings (boyd et al., 2010b; Christensen, 2011; Lotan et al., 2011). 

Laut Twitter (2015k) gab es im März 2015 etwa 302 Millionen monatlich ak- 
tive Nutzer, was im Vergleich zu März 2010 mit 30 Millionen (Twitter, Inc., 
2015b) eine Verzehnfachung bedeutet. Twitter definiert aktive Nutzer/-innen als 
Personen, die pro Monat mindestens einmal auf der Plattform aktiv waren (z.B. 
durch Anmelden im Account). Von den aktiven Usern nutzen etwa 80 Prozent den 
Dienst über das mobile Internet, insgesamt werden pro Tag 500 Millionen Tweets 
verfasst (Twitter, Inc., 2015k). Wissenschaftler, die Twitter-Daten beziehen, steht 
somit ein sehr großes potentielles Datenset zur Verfügung. 

Zur Betrachtung der Staaten mit den meisten Twitter-Nutzern sollten gewich- 
tete Daten verwendet werden, um Verzerrungen durch die Einwohnerzahl zu ver- 
meiden. Da Twitter keine offiziellen Zahlen zur Herkunft seiner Nutzer/-innen 
veröffentlicht, führten Mocanu et al. (2013) eine Lokalisierung anhand von Spra- 
che und Standort durch. Nach Anzahl der Accounts je 1000 Einwohner eines Staa- 
tes ergab sich folgendes Bild: Kuwait (1 Prozent), die Niederlande (0,39 Prozent), 
Brunei (0,31), Großbritannien (0,3) und die USA (0,25) belegten Platz eins bis 
fünf. Deutschland wies in etwa einen Anteil von 0,04 Prozent an Twitter-Nutzern 
auf (Ebda). In absoluten Zahlen weisen die USA zwar den größten Anteil an Nut- 
zern auf — dies bestätigen unter anderem Analysen des Twitter-Volumens (Simi- 
larWeb, 2014) — relativ zur Einwohnerzahl belegt US-Amerika jedoch nur Platz 
fünf. 

Allerdings sind diese Angaben alle nur eingeschränkt zuverlässig: Der Tweet- 
Standort erlaubt noch keinen verlässlichen Rückschluss auf die Nationalität des 
Nutzers. So könnten unter anderem Verzerrungen durch Reisen in andere Länder 
auftreten. Bei der Erhebung durch Mocanu et al. (2013) wurden zumindest Haupt- 
reisezeiten berücksichtigt. Die Problematik der Lokalisierung von Tweets ist folg- 
lich auch hier präsent. 
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Interessant ist auch die Altersstruktur der monatlich aktiven Nutzer: Während bei 
Facebook die Altersgruppe der 25- bis 34-Jährigen mit 29 Prozent dominiert und 
knapp 24 Prozent der Nutzer älter als 45 sind (GlobalWebIndex, 2015), ist die 
Altersverteilung der männlichen und weiblichen Twitter-Nutzer gleichmäßiger 
(siehe Abbildung 2:). Zwar haben auch hier die 25- bis 34-Jährigen mit 22 Prozent 
den größten Anteil, jedoch sind die Abstände zu anderen Altersgruppen deutlich 
geringer. Nutzer ab 45 Jahren haben sogar einen Anteil von 38 Prozent, wovon die 
knappe Mehrheit über 55 Jahre alt ist (comScore, 2015). 
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Abbildung 2: Altersverteilung aktiver Twitter-Nutzer im Dezember 2014. 
Quelle: comScore (2015), eigene Darstellung. 


Der Online-Dienst Twitter wird, je nach Perspektive und Nutzung, mal als soziales 
Netzwerk, mal als reiner Kurznachrichtendienst bezeichnet. Diese Diskussion um 
die Definition von Twitter soll zunächst in Kapitel 3.1.1 aufgegriffen werden. Da- 
bei wird auch auf aktuelle Statistiken über Nutzer und Nutzung eingegangen. An- 
schließend folgt eine genauere Betrachtung der Twitter-Nutzung und der Daten- 
struktur von Tweets. 
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3.1.1 Einordnung in die Social Media Landschaft 


Aufgrund der mittlerweile umfassenden sozialen Kommunikationsméglichkeiten 
ist eine klare Einordnung des Dienstes innerhalb der Social Media Landschaft 
nicht mehr möglich (Parmelee & Bichard, 2012, S. 38). Einerseits teilt Twitter 
viele Eigenschaften sozialer Netzwerke (wie Facebook oder LinkedIn): halb-6f- 
fentliche Profile, Interaktivität, einen sozialen Charakter der Interaktion, Vernet- 
zung mit Nutzerlisten (boyd & Ellison, 2007). Andererseits wird Twitter auch als 
Mikroblogging-Plattform gesehen (Ebersbach, Glaser & Heigl, 2008) und ist mit 
seinen Funktionen und Eigenschaften immer noch näher an Blogs als an sozialen 
Netzwerken. Ross, Terras, Warwick und Welsh (2011, S. 217) definieren Mikro- 
blogging wie folgt: 


„Microblogging is a variant of blogging, which allows users to quickly post short up- 
dates, providing an innovative communication method that can be seen as a hybrid of 
blogging, instant messaging, social networking and status notifications. The word’s 
origin suggests that it shares the majority of elements with blogging, therefore it can 
potentially be described using blogging’s three key concepts (Karger and Quan, 
2004): the contents are short postings, these postings are kept together by a common 
content author who controls publication, and individual blog entries can be easily ag- 
gregated together.” 


Im Vergleich zu anderen Netzwerken wie Facebook, Google+ oder MySpace ba- 
siert die soziale Vernetzung/Freundschaft durch Followers nicht auf Reziprozität 
(Kwak, Lee, Park, & Moon, 2010, S. 591). Der ursprüngliche, informationelle 
Zweck ist immer noch ein wichtiger Grund für die Twitter-Nutzung. Nach Parme- 
lee und Bichard (2012, S. 64) sind Information Seeking und Guidance, also im 
weitere Sinne die Informationssuche zur Erleichterung von Entscheidungen und 
der Meinungsbildung, neben Unterhaltungs-Aspekten immer noch zentrale Nut- 
zungsmotive. 

Dass eine klare Abgrenzung nicht möglich ist, verdeutlicht auch die Tatsache, 
dass mittlerweile eine eigene Ökosphäre von Zusatzprogrammen und Diensten 
rund um Twitter entstanden ist (siehe Abbildung 3: auf der nächsten Seite), wie 
Kurzlink-Generatoren, Storytelling-Plattformen für Tweets oder Aggregatoren. 
Tweets sind zudem häufig der Ausgangspunkt für weitere Informationen, die über 
Links, Fotos und Videos vermittelt werden. Dadurch entsteht unter Umständen 
auch der Charakter eines Content Networks, auf welchem Inhalte geteilt werden. 

Dennoch entwickelt sich Twitter immer mehr zu einem sozialen Netzwerk. 
Dies zeigt sich vor allem in der Implementierung zusätzlicher Funktionen: Wäh- 
rend zu Beginn der Plattform nur ein Schreiben reiner, auf 140 Zeichen begrenzter, 
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Textnachrichten möglich war, wuchs Twitter nach und nach um soziale Funktio- 
nen, wie das Beantworten oder Teilen von Tweets. Wie stark sich Twitter von der 
ursprünglichen Idee der rein öffentlichen Informationsvermittlung distanziert hat, 
zeigt die jüngste Ankündigung von Twitter, Inc. Seit Juli 2015 sind private Nach- 
richten (Direct Messages) nicht mehr auf 140 Zeichen begrenzt (Twitter, 2015), 
sodass ausführliche, private Interaktionen ermöglicht werden. Diese und weitere 
Möglichkeiten sowie Konventionen der Kommunikation auf Twitter soll das fol- 
gende Kapitel betrachten. 
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Abbildung 3: Social Media Prisma. Quelle: Ethority (2014). 


30 3 Grundlagen 


3.1.2 Konventionen und Struktur der Kommunikation 


Twitter bedient sich mehrerer Mechanismen zur Vereinfachung der Kommunika- 
tion: Mithilfe eines vorangestellten @ an einem existierenden Benutzernamen 
können einzelne Twitter-Nutzer in einem Tweet direkt adressiert werden. Man 
spricht hierbei von Mentions (@Username). Die direkte Beantwortung eines 
Tweets durch eine andere Nachricht heißt Reply. Der Unterschied zu einer reinen 
Erwähnung in einem Tweet besteht darin, dass bei einem Reply das Mention im- 
mer vorangestellt wird (z.B. „@Mustermann: Ich stimme dir zu!“). Retweets sind 
der Kern-Mechanismus auf Twitter: Damit können einzelne Tweets direkt zitiert 
oder mit anderen Nutzern geteilt werden (Suh, Hong, Pirolli, & Chi, 2010). Ein 
Retweet ist eine Weiterleitung einer Meldung, früher ersichtlich durch ein „RT 
@Username“ im Fließtext, mittlerweile nur durch eine spezielle Markierung des 
Tweets (Halavais, 2014, S. 35). Dabei können Nutzer durch Retweets nicht nur 
Informationen teilen, sondern beispielweise auch Follower unterhalten (durch Tei- 
len unterhaltsamer Tweets) oder mit beigefügten Kommentaren die eigene Zu- 
stimmung oder Ablehnung eines Tweets äußern (boyd et al., 2010a). Seit Juni 
2014 besteht die Möglichkeit, zu einem Retweet nochmal zusätzlich einen bis zu 
140 Zeichen langen Kommentar zu schreiben (Perez, 2014). 

Hashtags (hash, engl. für „Raute“, und tag, engl. für ,,Markierung“) sind Wör- 
ter oder Abkürzungen, die durch ein vorangestelltes #-Symbol markiert werden. 
Diese Stichwörter sind nicht moderiert (jeder Nutzer kann eigene Hashtags erstel- 
len) und dienen zur thematischen Vernetzung mit anderen Tweets beziehungs- 
weise gleichen Themen (Parmelee & Bichard, 2012, S. 4). Über die portaleigene 
Suche oder andere Webdienste können auch nicht registrierte Personen gezielt 
nach bestimmten Hashtags suchen. Hashtags sind ein nützlicher und sehr wichti- 
ger Mechanismus zur Verbreitung und Verknüpfung von Informationen auf Twit- 
ter (Bruns & Moe, 2014, S. 164). Nur so besteht die Möglichkeit, thematisch ähn- 
liche Tweets miteinander zu assoziieren. 

Des Weiteren gibt es einen Mechanismus, Tweets von anderen Nutzern zu fa- 
vorisieren. Diese Favorites werden jedoch, im Vergleich zu Retweets seltener ein- 
gesetzt (Suh et al., 2010). Die Darstellung der Favorites eines Users erfolgt nicht, 
wie bei Retweets, auf der eigenen Profilseite im Twitter-Verlauf. Diese sind nur 
beim jeweiligen favorisierten Tweet aufgelistet. Dennoch ist ein Favorite ein 
wichtiges Kennzeichen für die Verbreitung einer Nachricht. In der Funktionsweise 
ist es vergleichbar mit dem Zike auf Facebook. Tabelle 1 listet nochmal alle Kon- 
ventionen aufund Abbildung 4 stellt deren Verwendung und Darstellung in einem 
ausgewählten Tweet dar. 
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Tabelle 1: Konventionen/Begriffe der Kommunikation auf Twitter 

KONVENTION, BESCHREIBUNG BEISPIEL/HINWEIS 

BEGRIFF 

TWEET Kurznachricht auf Twitter, limitiert auf Wann scheint endlich die #Sonne! 
140 Zeichen. Kann Links, Fotos und Dann eben #kino... 

Videos enthalten. http://t.co/123458abc 

MENTION Erwähnung eines Nutzers in einem Im #Kino mit @musteruser :-) 
Tweet, bzw. Verknüpfung einer Nachricht 
mit einem Twitter-Nutzer. Vorangestell- 
tes „@“-Zeichen bei Benutzernamen. 

REPLY Direkte Antwort auf einen Tweet. Beginnt @musteruser: Viel Spaß im Kino! 
mit Nennung des kommentierten Nut- 
zers. 

RETWEET Teilen eines fremden Tweets durch den RT@musteruser: Im #Kino mit 
eignen Nutzeraccount. Nachricht enthält musterfrau :-) 
in der Regel „RT@username“. 

HASHTAG Wörter oder Abkürzungen, die durch ein Hätte Lust auf #kino #zeitvertreib 
vorangestelltes „#“-Zeichen markiert wer- #langeweile 
den. Hashtags können gesucht werden 
und dienen zur Verknüpfung von The- 
men. 

FAVORITE Markierung eines Tweets durch einen Zahl der Favorites wird unterhalb ei- 
Nutzer, dass ihm der Tweet gefällt. Ent- nes Tweets angezeigt (Zahl neben 
spricht dem „Like“ auf Facebook. dem Sternchen). 

FOLLOWER Twitter-Nutzer, der alle Tweets eines an- Follower werden in der Account- 
deren Nutzers abonniert hat. Übersicht angezeigt. 

FOLLOWEE Twitter-Nutzer, dem gefolgt wird/der 
abonniert wurde. 

FRIEND Reziproke Follower-Followee-Beziehung. Zwei Nutzer sind gegenseitige Follo- 

wer. 

DIRECT Private Nachricht, die an eine Person 

MESSAGE oder Gruppe geschickt wird. Direct Mes- 
sages werden nicht öffentlich angezeigt. 

LIST Durch Nutzer verwaltete, öffentliche Liste mit Accounts von Nachrichten- 
Liste, von anderen Accounts. Kann abon- agenturen. 
niert werden. 


32 3 Grundlagen 


| GermanForeignOffice 
Japan: Our Embassy in #Tokyo commemorates the victims of “Quake 
Tsunami + #NuclearDisaster 4 years ago. #311Day 


Abbildung 4: Konventionen auf Twitter anhand eines Tweets durch den 
Regierungssprecher. Steffen Seibert (@RegSprecher) retweetet 
am 11. März 2015 eine Nachricht des Auswärtigen Amtes 
(@GermanyDiplo) anlässlich des Jahrestags der 
Naturkatastrophe in Japan 2011. Verwendet werden unter 
anderem die Hashtags #Japan, #Quake und #Tsunami. Zum 
Zeitpunkt der Erhebung hatte dieser Tweet 14 Retweets und 32 
Favorites. Quelle: Seifert (2015). 


Die Interaktion auf Twitter kann unterschiedlich typisiert werden: Anhand der 
Kommunikationsrichtung, der Kommunikationsebene und Kommunikationsbe- 
ziehung. Hinsichtlich der Richtung findet bei Twitter sowohl eine unidirektionale, 
als auch eine bidirektionale Kommunikation statt. Urspriinglich war der Mikro- 
blogging-Dienst primär als Verteiler von Informationen/Neuigkeiten konstruiert 
(Rogers, 2014), indem Wissen unidirektional von einem Nutzer zu anderen ver- 
mittelt und multipliziert werden sollte. Abonniert ein Nutzer beispielsweise einen 
anderen Nutzer, werden diesem Follower nun automatisch alle Tweets des abon- 
nierten Followees angezeigt. Durch die spätere Implementierung weiterer sozialer 
Interaktions-Funktionen haben sich die Kommunikationsmöglichkeiten jedoch 
ausgeweitet. Wird ein Tweet kommentiert oder eine private (direkte) Nachricht 
verschickt, findet eine zweiseitige Kommunikation statt. 
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Des Weiteren lasst sich die Kommunikation auf Twitter nach Bruns (2014) in drei 
Ebenen einordnen. Auf der Mikroebene findet die auf zwei Nutzer begrenzte, in- 
terpersonellen Kommunikation statt: Replies, Mentions und Direct Messages, wo- 
bei letztere als einzige Interaktionsform nicht öffentlich ist und somit der Mikro- 
ebene am ehesten entspricht. Die Mesoebene bildet alle Interaktionen zwischen 
einem Followee und dessen Followern ab. Diese Kommunikation ist somit auf 
eine spezifische, relativ konstante und abgrenzbare Nutzer-Gruppe ausgerichtet. 
Bruns (2014, S. 16) argumentiert, dass Tweets primär von den eigenen Followern 
gelesen, kommentiert und geteilt würden. Es entstünde somit eine „personal 
public“ (Ebda, S. 17), also persönliche Öffentlichkeit eines Followees. Dieser Ef- 
fekt der Zielgruppenbegrenzung verstärkt sich durch die Tatsache, dass pro Se- 
kunde durchschnittlich etwa 5.800 Tweets veröffentlicht werden (Twitter, Inc., 
2015k) und somit die Wahrscheinlichkeit gering ist, dass der Tweet von Nutzern 
gelesen wird, die den Verfasser nicht abonniert haben. Bei großen medialen Er- 
eignissen, wie dem Finale der Fußball-Weltmeisterschaft am 13. Juli 2014 mit ins- 
gesamt 31,2 Millionen Tweets zum Finale, können es mehr als 600.000 Tweets 
pro Minute sein (Wiltshire, 2014). Zu der Makroebene gehört der Großteil der 
Kommunikation auf Twitter. Da grundsätzlich jeder Tweet durch die Öffentlich- 
keit gelesen, durch Hashtags gezielt gesucht und mit Themen verknüpft werden 
könne, seien Tweets meist Teil eines großen Kommunikationsflusses von in der 
Popularität schnell steigenden und fallenden Themen/Begriffen (Bruns, 2014, S. 
19-20). 

Die drei genannten Ebenen sollten nicht als isolierte Strukturen der Twitter- 
Kommunikation betrachtet werden, sondern als sich teils kreuzende oder über- 
schneidende Kommunikationsstränge: Replies und Retweets können beispiels- 
weise Teil einer übergeordneten Ad-hoc-Diskussion bezüglich eines Themas (ver- 
knüpft durch ein gemeinsam genutztes Hashtag) sein. 

Schließlich kann die Twitter-Kommunikation noch, wie Tabelle 2 dargestellt, 
anhand der Beziehung typisiert werden. In Anlehnung an Konert und Hermanns 
(2002, S. 416) wird einerseits eine Einordnung anhand der Anzahl und Organisa- 
tion der beteiligten Akteure vorgenommen (von One-to-One bis Many-to-Many), 
andererseits nach der Chronologie der Kommunikation (synchron oder asyn- 
chron). Die Interaktion auf Twitter erfolgt in der Regel nicht zeitgleich (synchron), 
wie bei einer Unterhaltung oder einem Telefonat, sondern wird unter Umständen 
stark zeitverzögert (asynchron) fortgesetzt. Twitter-User können zu einem belie- 
bigen Zeitpunkt Tweets versenden, Nachrichten anderer Nutzer teilen oder kom- 
mentieren. Aufgrund der unterschiedlichen Interaktionsmöglichkeiten auf Twitter 
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sind auch mehrere Interaktionsbeziehungen möglich: One-to-One (private Nach- 
richten, direkte Antworten), One-to-Few (private Nachricht an Gruppe) bezie- 
hungsweise One-to-Many (normaler Tweet) sowie Many-to-Many (Tweet inner- 
halb einer per Hashtag verknüpften Ad-hoc-Öffentlichkeit) möglich. 


Tabelle 2: Typisierung der Kommunikations-Beziehungen im Internet, in 
Anlehnung an Konert und Hermanns (2002, S. 416). 


SYNCHRONE KOMMUNIKATION ASYNCHRONE KOMMUNIKATION 


(NAHEZU SIMULTAN) (ZEITUNABHÄNGIG, VERZÖGERT) 
ONE-TO-ONE Private Chats/Instant Messaging, E-Mails, 

Video-Chat (z.B. Skype) Twitter: Direct Message, Reply 
ONE-TO- Live-Streaming, Newsticker Webseiten, Blogs, E-Mails 
FEW/MANY, Twitter: Direct Message an Gruppe, 
FEW/MANY-TO- Tweets an Follower 
ONE 


MANY-TO-MANY _ | Video-Konferenzen (z.B. Google+ Foren 
Hangout), öffentliche Chat- Twitter: Hashtag-verknüpfte Unterhal- 
Rooms tung 


Charakteristisch für Online-Plattformen ist die non-konforme Textstruktur von 
Tweets. Wie bei Chatnachrichten oder SMS achten viele (vor allem nicht-kom- 
merziell ausgerichtete) Twitter-Nutzer selten auf Grammatik oder Rechtschrei- 
bung. Häufig werden nur Kleinbuchstaben, Abkürzungen oder Neologismen ver- 
wendet. Auch Dialekte oder die Vermischung von Sprachen, wie zum Beispiel 
deutscher Fließtext mit englischen Hashtags, sowie eine fehlende Interpunktion 
oder eine unkonventionelle Verwendung von Sonderzeichen erschweren die Ana- 
lyse von Tweets. Hashtags, Mentions und Links werden teilweise in die Satzstruk- 
tur integriert. 

Abbildung 5 auf der folgenden Seite zeigt beispielhaft Tweets, die für die 
spätere Analyse (Kapitel 4.3) erfasst wurden. Bei einer automatisierten Analyse 
durch Computer müssen diese Besonderheiten berücksichtigt und - sofern mög- 
lich - bereinigt werden. Mit diesem Problem beschäftigt sich Kapitel 4.3.1 im hin- 
teren Teil dieser Arbeit. 
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Abbildung 5: Typische Sprache auf Twitter anhand zweier Tweets von 
Jokolove (2015) und Fahrstuhlprofi (2015). 


3.1.3 Datenstruktur von Tweets 


Jeder Tweet besteht nicht nur aus dem ersichtlichen Tweet-Text, sondern aus ei- 
nem Biindel an Meta-Daten, die sich hinsichtlich Inhalt und Umfang nach Tweet 
und Nutzer unterscheiden. Twitter verwendet hierfür eine ungeordnete Daten- 
struktur im JSON-Format (JavaScript Object Notation), welches sich durch eine 
kompakte, leicht lesbare und schnell zu verarbeitende Textform auszeichnet. Jede 
Abfrage liefert Datensätze in diesem Format. Die verschachtelte Struktur ermög- 
licht eine einfache Zuordnung spezifischer Werte zu übergeordneten Wertegrup- 
pen. Die einzelnen Informationen werden relativ unsortiert übermittelt, sind je- 
doch in vier logische Objektgruppen gegliedert. Diese bündeln jeweils spezifische 
Informationen über User, Tweet, Informationsobjekte und — sofern angegeben — 
den Ort. Anhang A beschreibt die wichtigsten Felder der einzelnen Objekte. 
Abbildung 6 auf der übernächsten Seite liefert einen beispielhaften Überblick 
über die Datenstruktur eines Tweets. Ein typischer Datensatz bezieht sich immer 
auf einen einzelnen Tweet, unabhängig ob es ein originärer Tweet, Retweet oder 
ein Reply ist. Je nach Typ werden dabei unterschiedliche Informationen zur Ver- 
fügung gestellt. Ein originärer Tweet, wie in Abbildung 4, umfasst Daten über den 
Tweet-Inhalt, Sprache, Zeit (und Ort) sowie den Verfasser. Bei Retweets ist zu- 
sätzlich der weitergeleitete Tweet, dessen Metadaten (wie unter anderem Favorites 


5 Anmerkung: Häufig wird irrtümlich die reine Textnachricht als Tweet bezeichnet. Streng genommen 
ist die Nachricht aber nur eines von vielen Merkmalen eines Tweets. 
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und Retweets) sowie dessen Verfasser ersichtlich, wogegen bei Replies der Um- 
fang begrenzter ist: Hier sind nur die IDs des beantworteten Tweets und des damit 
verbundenen Twitter-Nutzers einsehbar. 

Für inhaltliche Analysen sind vor allem die extrahierten Entities interessant. 
Hashtags, Hashtag-Trends, Mentions, URLs, Symbole, Bilder und Videos werden 
automatisch erkannt und in diesem Daten-Array aufgelistet. Zusatzlich sind Infor- 
mationen tiber die genaue Position eines Objektes innerhalb des Tweets ersicht- 
lich: Indizes liefern Werte über die Position des ersten und letzten Zeichens eines 
Objektes und damit auch über die Länge. Bei dem in Abbildung 6 dargestellten 
Tweet beginnt das Hashtag ,#merkel“ mit Zeichen 10 und endet bei Zeichen 17, 
während die URL bei Zeichen 11 beginnt. 

Der hohe Informationsgehalt und die Mehrebenen-Struktur von Twitter-Daten 
sind mit einfachen Daten-Verwaltungsprogrammen, wie Microsoft Excel und Ac- 
cess nur schwer zu bewältigen, weshalb Datenbank-Systeme wie SQL oder 
NoSQL sinnvoll sind. Vor der Datenspeicherung oder spätestens vor der eigentli- 
chen Analyse sollten die gesammelten Daten für eine bessere Übersicht umstruk- 
turiert werden, indem unwichtige Parameter gefiltert und bedeutende Bestandteile 
umcodiert werden. Es bedarf somit an Programmen oder Programmiersprachen, 
die die jeweiligen Operationen zur Restrukturierung des Datensatzes ermöglichen 
und die aufbereiteten Daten dann in Datenbanken schreiben. Eine sehr geeignete, 
da einfache und übersichtliche, Sprache ist Python, welche das folgende Kapitel 
kurz vorstellt. 
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{ 
"contributors" : null, 
"truncated" : false, 


"text" : "Kanzlerin #Merkel + Präs. Hollande fordern Samstagabend im Telefonat mit Präs. Putin 
Einhaltung der Waffenruhe http://t.co/JvcvpMlHii", 


"id" : NumberLong ("566898377557041152"), 


"id str" : "566898377557041152", 
"in_reply_to_status_id" : null, 

"in reply_to_status_id_ str" : null, 
"in reply to_screen_name" : null, 
"in reply to_user_id" : null, 

"in reply to_user_id_ str" : null, 
"favorited" : false, 
"favorite_count" : 0, 

"retweeted" : false, 
"retweet_count" : 0, 


"source" : "<a href=\"http://twitter.com\" 
"coordinates" : null, 
"geo" : null, 


"place" : null 
"timestamp_ms" : "1423994080329", 
“entities” : { 
"user_mentions" : [], 
"symbols" : [], 
"trends" : [], 
"hashtags" : [{ 
"indices" : (10, 17], 
"text" : "Merkel" 
he 
"urls" : [{ 


"url" : "http://t.co/JvcvpM1Hii", 


"indices" : [111, 133], 


Tweet-ID 


ID des beantworteten Tweets 
Name des beantworteten Twitterers 


ID des beantworteten Twitterers 
Favorites des Tweets 


Retweets des Tweets 


rel=\"nofollow\">Twitter Web Client</a>", 


Geodaten des Tweets 


Exakter Zeitstempel des Tweets 


Entities des Tweets , z.B. 
@Mentions 

#Hashtags 

Urls 


"expanded url" : "http://bpaq.de/pHm", 


"display_url" : "bpaq.de/pHm" 
} 

, 

"user" : { 
"follow_request_sent" : null, 
"id" : 234343491, 

"id str" : "234343491", 
"verified" : true, 
"statuses_count" : 6107, 
"followers count" : 334745, 
"listed_count" : 3217, 
"friends_count" : 91, 
"favourites_count" : 28, 


(...] 


"description" : "Hier twittert Steffen Seibert, 
Bundespresseamtes (BPA). \r\nTweets seiner Mitarbeiter/innen enden mit dem Kiirzel (BPA).", 


"screen name" : "RegSprecher", 
"name" : "Steffen Seibert", 


"url" : "http://www.bundesregierung.de", 


"lang" : "de", 
"notifications" : null, 


Daten des Twitterers, z.B. 
Nutzer-ID, 

Zahl der Followers, 

Zahl der Tweets, 

Zahl der eigenen Favorites, 
Account-Beschreibung, 
Account-Name, 

Datum der 
Account-Registrierung, 
Zeitzone usw. 


"created_at" : "Wed Jan 05 12:33:25 +0000 2011" 


"contributors_enabled" : false, 
"location" : "Berlin", 
"geo_enabled" : true, 
"time_zone" : "Berlin", 
l...) 

"lang" : "de", 


Ermittelte Sprache des Tweets 


"created_at" : "Sun Feb 15 09:54:40 +0000 2015", | Zeitpunkt der Tweet-Veröffentlichung 


} 


Abbildung 6: Datenstruktur eines Tweets. Eigene, gekürzte Darstellung in 


Anlehnung an Krikorian (2010). 


Sprecher der Bundesregierung und Chef des 


Tweet-Text 
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3.2 Programmiersprache Python 


Entwickelt im Jahr 1990 durch Guido van Rossum, etablierte sich die Program- 
miersprache Python mittlerweile als Standard für deskriptive, computergestiitzte 
Studien (Millman & Aivazis, 2011, S. 9). Python ist eine interpretierte, interaktive, 
objekt-orientierte Programmiersprache, die eine sehr einfache und übersichtliche 
Syntax aufweist (Sanner, 1999, S. 3). Während die Sprache ursprünglich nicht für 
wissenschaftliche Zwecke gestaltet war, entstanden im Lauf der Zeit mit zuneh- 
mendem Interesse durch die Wissenschaft mehrere spezialisierte Module, wie 
SciPy, matplotlib und NumPy. Diese Pakete beinhalten etwa Funktionen zur Dar- 
stellung von Plots oder zur Ausführung einfacher, numerischer Funktionen bis hin 
zu komplexen Berechnungen (Millman & Aivazis, 2011, S. 10). Eines dieser Pa- 
kete ist auch Tweepy. 

Tweepy° ist ein Python-Modul, das speziell zur Interaktion mit den Twitter 
APIs entwickelt wurde. Es unterstützt Anwender bei der Autorisierung und Durch- 
führung von Abfragen. Zusätzlich zu den normalen Abfrage-Methoden über die 
REST und Streaming API stehen weitere nützliche Funktionen zur Verfügung. So 
berücksichtigt Tweepy bei Bedarf die Bandbreiten-Limitierung der REST API und 
plant beziehungsweise pausiert die definierten Requests. Tweepy wird in dieser 
Arbeit zur Datensammlung verwendet (siehe Listing 8, Kapitel 4.1.2). 

Python weist mehrere Eigenschaften auf, die für eine wissenschaftliche Nut- 
zung ohne vorhandene, fortgeschrittene Programmierkenntnisse von Vorteil sind: 
Eine intuitive, klar strukturierte Syntax, die eine gute Lesbarkeit’ und somit auch 
einfachere Programmierung fördert (Russell, 2013, S. xv). Die Lernkurve ist 
dadurch hoch und die Einarbeitungszeit kurz. Der Programmcode ist plattformun- 
abhängig und kann auf nahezu jedem Betriebssystem (wie Windows, Mac OS oder 
Linux) ausgeführt werden. 


€ http: //www.tweepy.org/ 
7 Der Programmcode liest sich wie ein Text. 
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Listing 1: Beispiel für ein Python-Skript 


# Laden von Modulen 
import tweepy 
from slistener import tweepylistener 


#Definition von Parametern 

list _terms = ["#obama"] 

listen = tweepylistener (api) 

stream = tweepy.Stream(auth, listen, timeout=600.0) 


#Definition einer Suchabfrage 
while True: 
try: 
stream. filter(track=list terms, async=False) 
break 
#Vorgehen bei Fehlern: Abbruch 
except Exception, e: 
sys.exit (1) 


Listing 1 zeigt ein sehr einfaches Skript, das mit Python zum Sammeln von Tweets 
zu einem bestimmten Begriff geschrieben wurde. Das Programm bedient sich da- 
bei an vordefinierten Klassen, die hier bereits im Modul Tweepy integriert sind 
oder vorher manuell erstellt wurden (Klasse slistener). Aufgrund dieser modu- 
laren Struktur können auf einfache und übersichtliche Weise Befehle ausgeführt 
werden, für die vorher nur wenige Parameter definiert werden müssen. In diesem 
Fall wurde mit list_terms nur ein Suchterm angegeben. 

Der geschriebene Programmcode wird unmittelbar interpretiert, es entfällt also 
das aufwändige Kompilieren vor der Ausführung. Als objekt-orientierte Sprache 
erlaubt Python eine Modularisierung von Programmteilen, die zu einem anderen 
Zeitpunkt im Code wiederverwendet werden können, als dynamische Sprache 
können Paramater während der Ausführung hinzugefügt oder geändert werden 
(Bird, Klein, & Loper, 2009, S. xiii). Python ist zudem, im Vergleich zu ähnlichen 
Sprachen wie MatLab, als Open Source lizenziert und damit kostenlos. Idealer- 
weise ist die Kern-Datenstruktur von Python im JSON-Format — dem gleichen 
Format, in dem auch Twitter-Daten zur Verfügung gestellt werden. Es gibt mitt- 
lerweile ein sehr großes Ökosystem mit vielen Programmpaketen für unterschied- 
lichste Zwecke — von Schnittstellen zu Datenbanken oder anderen Programmen, 
bis hin zu eigenständigen Bibliotheken zur Visualisierung von Daten. Besonders 
aufgrund der hohen Lesbarkeit und der großen Popularität bei Twitter-basierten 
Analysen, wird Python in dieser Arbeit als Programmiersprache verwendet. 


Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung - Nicht kommerziell 4.0 International Lizenz (http://creativecommons.org/licenses/ 
by-nc/4.0/deed.de) veröffentlicht, welche für nicht kommerzielle Zwecke die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Me- 
dium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen 
und angeben, ob Änderungen vorgenommen wurden. 

Etwaige Abbildungen oder sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende oder der 
Quellreferenz nichts anderes ergibt. Sofern solches Drittmaterial nicht unter der genannten Creative Commons Lizenz steht, ist eine Vervielfältigung, Bearbeitung 
oder öffentliche Wiedergabe nur mit vorheriger Zustimmung des betreffenden Rechteinhabers oder auf der Grundlage einschlägiger gesetzlicher Erlaubnisvorschrif- 
ten zulässig. 


4 Methoden zur Erfassung, Verwaltung und 
Auswertung von Tweets 


Die in Kapitel 2 vorgestellten Studien verwendeten unterschiedliche Herangehens- 
weisen zur Erhebung und Analyse von Daten auf Twitter: Je nach zeitlicher Fo- 
kussierung wurde die Streaming API oder die REST API, in wenigen Fallen auch 
ein kostenpflichtiger Datensatz eines Datenhändlers verwendet. Zudem wurden 
die erhobenen Daten in Datenbanken oder einfachen Textdateien gespeichert, die 
quantitativen oder qualitativen Analysen erfolgten manuell oder computergestützt. 
Welche Möglichkeiten der Datenerhebung auf Twitter bestehen und wie diese 
eingesetzt werden, soll im nächsten Kapitel genauer analysiert werden. In Anleh- 
nung an den üblichen Prozess der Analyse von Online-Daten (Datenerhebung — 
Datenspeicherung — Datenauswertung) gliedert sich dieser Teil der Arbeit in drei 
Kapitel. Kapitel 4.1 befasst sich zunächst mit den technischen Aspekten der Da- 
tenerhebung und stellt hierfür die beiden kostenlosen Twitter-Schnittstellen ge- 
genüber. Zudem wird auch kurz auf alternative, kostenpflichtige Methoden einge- 
gangen sowie die Vorteile und Grenzen der einzelnen Ansätze anhand praktischer 
Beispiele dargestellt. Kapitel 4.2 geht schließlich auf den Prozess der Datenspei- 
cherung und -verwaltung ein. Die Wahl einer geeigneten Speichermethode ist ent- 
scheidend für die weitere Datenverwaltung, Datenpflege und letztlich auch die 
Analyse. Neben der einfachen Speicherung in einzelnen Dateien werden unter- 
schiedliche Datenbank-Konzepte angesprochen. Das abschließende Kapitel 4.3 
befasst sich mit Analyseverfahren. Für die Auswertung umfangreicher und detail- 
lierter Daten sozialer Netzwerke sind manuelle Verfahren, wie das Kodieren ein- 
zelner Tweets, nicht praktikabel, beziehungsweise nur unter großem Aufwand re- 
alisierbar. Deswegen steht eine Vielzahl computergestützter Verfahren zur Verfü- 
gung, die den Prozess vereinfachen: Von der automatisierten Inhaltsanalyse mit 
Bag of Words Repräsentation bis hin zu vollständigen semantischen Analysen. 


© Der/die Autor(en) 2016 
F. Pfaffenberger, Twitter als Basis wissenschaftlicher Studien, 
DOI 10.1007/978-3-658-14414-2_4 
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4.1 Möglichkeiten der Datensammlung 


Twitter-Daten können mit unterschiedlichen Methoden erhoben werden. In der 
Praxis haben sich, je nach Ausgangslage, mehrere Verfahren etabliert. Twitter er- 
möglicht seit 2014 sechs von 1.300 beworbenen Forschungsprojekten umfassen- 
den Datenzugriff (Krikorian, 2014). Neben diesen Data Grants besitzen noch 
mehrere Institutionen (wie das MIT oder die Library of Congress in den USA) und 
Geschäftspartner (z.B. IBM, Brandwatch) privilegierte Rechte. Die meisten Inte- 
ressenten für Twitter-Daten müssen jedoch andere, hinsichtlich Umfang und In- 
formationsgehalt deutlich beschränkte, Datenzugänge wählen. 

Für „normale“ Twitter-Nutzer besteht die Möglichkeit, eigene Tweets als lo- 
kale Kopie zu archivieren, wobei sich der Datenexport aufgrund des Formats und 
der Einschränkung auf eigene Tweets nicht für Forschungszwecke eignet. Für eine 
detaillierte Datenabfrage stellt Twitter zwei Typen von Schnittstellen zur Verfü- 
gung: die Streaming API und die REST APIs. Diese unterscheiden sich hinsicht- 
lich Datenumfang, Zeitraum und Funktionalität. Eine Nutzung dieser APIs setzt, 
im Vergleich zu simplen Datenexporten aus Twitter, technisches Know-How und 
ein entsprechend einsetzbares IT-System voraus. Die in folgenden Kapitel vorge- 
stellten Twitter APIs unterstützen eine Vielzahl gängiger Programmiersprachen 
zur Steuerung der Datenabfragen und -verarbeitung, wie Java, ASP, Ruby und Py- 
thon. 

Alle Schnittstellen benötigen für den Daten-Zugriff einen Twitter-Account 
und eine darin registrierte Anwendung, die die Datenabfragen verwaltet. Diese 
App autorisiert schließlich die Endbenutzer für die Verwendung der Twitter APIs, 
wobei der Zugriff entweder von einem Programm allein (App Auth) oder von meh- 
reren Nutzern parallel (User Auth) über einen Dienst erfolgen kann. Die Autori- 
sierung muss vor Beginn der Abfrage einmalig durchgeführt werden. Listing 2 
zeigt einen typischen Vorgang zur Autorisierung eines Programms bei den Twitter 
APIs. Hierfür verlangt die API den Consumer Key und das Consumer Secret aus 
der App-Verwaltung®, die in den Programmcode eingetragen werden. Wenn die 
Schnittstelle parallel von mehreren Programmen über dieselbe App abgerufen 
werden soll (also per User Auth), benötigt der Anmelde-Prozess zusätzlich Access 
Token und Access Token Secret. 


ë Der Aufruf der App-Verwaltung erfolgt über https://apps.twitter.com/app/ 
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Listing 2: OAuth-Autorisierung bei der Twitter API. 
import tweepy 


# Authentifizierung mittels Zugangsdaten, die unter 
https://apps.twitter.com/app abgerufen werden 


consumer key="<Consumer/API Key>" 
consumer secret="<Consumer/API Secret>" 
access key="<Access Token>" 

access secret="<Access Token Secret>" 


auth = tweepy.OAuthHandler (consumer key, consumer secret) 
# Wenn UserAuth-Methode: 
auth.set access token(access key, access _ secret) 


api = tweepy.API (auth) 


Neben der Möglichkeit, Twitter-Daten mithilfe (selbst) geschriebener Programm- 
routinen über die Schnittstellen abzurufen, können Daten zusätzlich von Drittan- 
bietern erworben werden. Hierfür werden weder einer Registrierung bei Twitter, 
noch Programmierkenntnisse vorausgesetzt. Die folgenden Unterkapitel stellen 
diese drei Varianten kurz vor und vergleichen sie abschließend. 


4.1.1 Streaming API 


Die Streaming API ist die wohl meistgenutzte Datenquelle, da sie aufgrund ihres 
Datenumfangs und ihrer Handhabung ideal fiir großvolumige, langfristige quanti- 
tative Analysen ist (Parmelee & Bichard, 2012, S. 56). Twitter-Daten werden hier 
als konstanter Datenstrom nahezu in Echtzeit gesendet. Man spricht diesbezüglich 
von einer push-basierten API. Es werden also nach einmaliger Anfrage kontinu- 
ierlich Daten an den Empfänger übermittelt, wogegen beim pull-Prinzip spezifi- 
sche Daten immer erst nach Aufforderung geliefert werden würden (Kumar et al., 
2014, S. 5). 

Die Streaming API gliedert sich in drei Streams, die einen jeweils unterschied- 
lichen Endpunkt zur Datennutzung haben. User Streams übermitteln alle Daten, 
die zu einem spezifizierten Nutzer gehören (Tweets der gefolgten Accounts, 
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Replies auf die eigenen Tweets, und — wenn autorisiert? — Direct Messages). Die 
Site Streams bilden die Mehrnutzer-Variante der User Streams ab und sind vor 
allem fiir 6ffentliche Webanwendungen gedacht. Wahrend User und Site Streams 
nur die Daten einzelner Nutzer enthalten, liefern die Public Streams alle öffentlich 
erhältlichen Daten auf Twitter und ermöglichen, spezifische Nutzer oder Themen 
zu verfolgen. Sie sind somit am besten zum Data Mining geeignet. 

Alle Streams stehen in drei Bandbreiten zur Verfügung: Spritzer, Gardenhose 
und Firehose, die entsprechend maximal 1, 10 und 100 Prozent aller veröffent- 
lichten Tweets zu einem Suchterm pro Sekunde übermitteln (Gaffney & Pusch- 
mann, 2014, S. 57). Die Funktionsweise dieser Limits soll das folgende Beispiel 
anhand der Spritzer genauer erklären: Die APIs benötigen in den meisten Fällen, 
beziehungsweise für die meisten Abfragemethoden!® einen Suchterm. Dieser 
könnte ein Begriff („#merkel“), eine spezifische Nutzer-ID oder ein Koordinaten- 
Bereich sein. Übersteigt das Gesamtergebnis des Suchterms ein Prozent des mo- 
mentanen Twitter-Volumens — macht also das potentielle Suchergebnis in einer 
Sekunde mehr als ein Prozent des gesamten Tweet-Volumens weltweit aus — wer- 
den nur ein Prozent der Ergebnisse ausgegeben. Mit welchen Kriterien (z.B. Zeit- 
stempel, Relevanz, Popularität des Nutzers) diese von der API ausgegebenen 
Tweets gefiltert werden, ist nicht bekannt. 

Während Spritzer für alle Nutzer kostenlos ist, wird der Zugriff zur Garden- 
hose nur nach Anfrage und in begründeten Fällen (Forschungszwecke, Online- 
Dienste) erteilt. Der Zugang zur Firehose ist stark reglementiert und wird meist 
nur im Zusammenhang mit wirtschaftlichen, kostenpflichtigen Kooperationen 
freigegeben: Aufgrund der umfassenden und detaillierten Datenmenge besitzen 
nur wenige Unternehmen, wie die Datenhändler Gnip und DataSift, diese Mög- 
lichkeit. 

Der Datenstrom von Spritzer und Gardenhose steht außerdem in zwei unter- 
schiedlichen Methoden zur Verfügung: Sample und Filter. Erstere Variante er- 
zeugt ein Datensample von einem Prozent aller Tweets, wogegen letztere gefilterte 
übermittelt: Mittels Track Befehl können mehrere kommagetrennte Werte abge- 
fragt werden. Die Schnittstelle gibt dann alle Tweets aus, die diese Begriffe bein- 
halten, sofern das Volumen nicht ein Prozent des momentanen Twitter-Volumens 
übersteigt. Analog wird Follow für Benutzer-IDs und Locations für Koordina- 


° Die Autorisierung erfolgt immer auf Nutzerebene. Jeder Anwender kann über die API nur die Direct 


Messages verwalten, die mit dem jeweilig autorisierten Account verknüpft sind. Forschende haben 
also keine Möglichkeit, private Nachrichten anderer Nutzer zu lesen. 
10 Ausgenommen der Sample-Methoden. 
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ten verwendet. Ein Sprachfilter steht momentan nicht zur Verfügung. Für alle Me- 
thoden gibt es außerdem Einschränkungen bei der Anzahl an Filter-Parameter: So 
können zeitgleich höchstens 400 Wörter (Keywords), 5.000 User-IDs und 25 Orte 
abgefragt werden (Twitter, Inc., 2015e). 

Morstatter, Pfeffer, Liu und Carley (2013) verglichen den Standard-Datenout- 
put der Streaming API (Spritzer) mit den vollständigen Daten der Firehose hin- 
sichtlich Daten-Abdeckung und Stichprobenqualität. Hierfür wurden unter ande- 
rem Tweets nach Hashtag und Ort gefiltert und gegenübergestellt sowie Trend- 
Themen ermittelt. Die Untersuchung ergab, dass es sich beim 1|-prozentigen 
Sample der Spritzer um keine vollständig verlässliche Stichprobe handelt, sondern 
die Qualität des Samples von den analysierten Begriffen/Themen/Nutzern ab- 
hängt. Bei geringen Fallzahlen von Hashtags oder Themen traten kleinere Abwei- 
chungen auf. Bei zu großen Fallzahlen, also beispielsweise zu vielen Tweets, die 
ein bestimmtes Hashtag enthalten, sank die Genauigkeit des Samples. Dies lässt 
sich damit begründen, dass nach Überschreiten des 1%-Limits der Spritzer nicht 
mehr alle betreffenden Tweets übermittelt werden. Werden also zu einem Zeit- 
punkt mehr als ein Prozent aller Nachrichten auf Twitter zu einem gefilterten Be- 
griff /Thema/Nutzer verfasst, wird der Datenstrom auf diesen Anteil (respektive 
10% bei der Gardenhose) gedeckelt und die Menge an „verloren gegangenen“ 
Tweets als Zahl ausgegeben. 

Ein etwaiges Erreichen des Limits kann jedoch durch eine vorherige Eingren- 
zung der Daten mittels mehrerer Filter vermieden werden, sodass letztlich in die- 
sen Fällen alle relevanten Daten vollständig erhoben werden können. Dennoch 
kann es in einzelnen Fällen, bei sehr großem Tweet-Volumen zu einem einzelnen 
Thema (beispielsweise bei medialen Großereignissen wie Katastrophen), nicht 
möglich sein, durch Filter die Tweet-Anzahl so einzugrenzen, um die Bandbrei- 
tenbeschränkung nicht zu überschreiten. Auch ist ein sehr spezifisches Filtern der 
Daten nicht immer erwünscht und sinnvoll (bei globalen oder sehr unspezifischen 
Themen). In diesen Fällen müssen die Tweets, die durch die Deckelung des Da- 
tenstroms nicht übermittelt wurden, nachträglich und manuell mit Hilfe der REST 
API eingespeist werden (siehe Anwendungsbeispiel in Kapitel 4.1.2). Möglich 
wären auch aufgeteilte Abfragen, die synchron von unterschiedlichen Endpunkten 
gestartet werden: Je Hashtag wird eine eigene Abfrage über einen separaten Ac- 
count mit App gestartet — die Zusammenführung der Daten erfolgt dann während 
des Sammelns (Schreiben in die gleiche Datenbank) oder nachträglich. 


46 4 Methoden zur Erfassung, Verwaltung und Auswertung von Tweets 


4.1.1.1 Anwendungsbeispiel: Sammeln von Echtzeitdaten auf Twitter 


Das folgende Beispiel zeigt einen typischen Prozess zum Sammeln von Tweets: 
Das Programm in Listing 3 erfasst in Echtzeit Tweets mit Hashtag #Obama und 
gibt diese direkt im Programmfenster (Shell) aus. Zur Vereinfachung des Skriptes 
wird hier also auf ein Speichern und weiteres Verarbeiten der Tweets verzichtet — 
dieses Vorgehen wird in Kapitel 4.2 besprochen. 

Nach der Autorisierung des Programms bei der Streaming API tiber die OAuth- 
Methode wird zuerst die Klasse tweepylistener erstellt, die das Python-Paket 
Tweepy nutzt und das Vorgehen bei Eintreffen eines neuen Tweets definiert. Hier 
werden zur Veranschaulichung des Daten-Outputs alle eingehenden Daten in das 
Programmfenster geschrieben. Möglich wäre aber auch ein Abspeichern in eine 
Datei oder Datenbank. Etwaige Fehler erscheinen ebenfalls im Shell-Fenster. 
Diese Klasse kann jederzeit und an jeder Stelle des Programms aufgerufen werden. 
Schließlich werden die wesentlichen Parameter der API-Abfrage definiert: Der 
Suchterm entspricht einer vorher definierten Liste von Begriffen (hier: obama). 
Das Vorgehen bei Tweets, die der Abfrage beziehungsweise dem Suchterm ent- 
sprechen, definiert bereits die Klasse tweepylistener, die hier schließlich abge- 
rufen wird. Des Weiteren erfolgt eine explizite Einbindung der Streaming API und 
die Definition dafür notwendiger Parameter, wie Autorisierungs-Daten und eine 
Time-Out-Zeit für die Anfragen. Sollte eine Suche nach 600 Sekunden kein Er- 
gebnis liefern, endet der Prozess automatisch. Zuletzt werden noch die Suchfilter 
über die Variable list_terms integriert. 


Listing 3: Simpler Vorgang zum Sammeln von Tweets mit dem Begriff 
„obama“ und direkter Ausgabe im Programmfenster 


import tweepy 


# Authentifizierung 

consumer key="<Consumer/API Key>" 

consumer secret="<Consumer/API Secret>" 

access key="<Access Token>" 

access secret="<Access Token Secret>" 

auth = tweepy.OAuthHandler (consumer key, consumer secret) 
auth.set access token(access key, access secret) 

api = tweepy.API (auth) 


# Definiere Vorgehen bei neuen Tweets und Fehlern 
class tweepylistener (tweepy.StreamListener): 
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def on_data(self, data): 
print (data) 
return True 

def on_error (self, status): 
print (status) 


# Definiere Parameter des Streams 
if name == ' main ': 
list _terms = ["#obama"] 
listen = tweepylistener (api) 
stream = tweepy.Stream(auth, listen, timeout=600.0) 
stream.filter(track=list_ terms) 


Der Suchfilter track weist eine spezielle Systematik auf, die es erlaubt, Suchbe- 
griffe mit den logischen Operatoren AND und OR zu verknüpfen. Diese Syste- 
matik verknüpft Wörter, die nur durch ein Leerzeichen getrennt sind, als Konjunk- 
tionen und behandelt kommaseparierte Begriffe als Disjunktionen. Dabei berück- 
sichtigt der Algorithmus des Suchfilters auch explizit Punktationen und Sonder- 
zeichen, wobei diese nicht in #hashtags und @mentions erlaubt sind und somit nur 
die Suche in normalem Fließtext davon betroffen ist. Tabelle 3 veranschaulicht 
den Such-Mechanismus. 


Tabelle 3: Operatoren des Track Filters der Streaming API. In Anlehnung an 
Twitter, Inc. (2015f). 


SUCHPARA- BERUCKSICHTIGTE NICHT BERÜCKSICHTIGTE 
METER BEGRIFFE/TWEETS BEGRIFFE/TWEETS 
OBAMA Obama / #Obama / OBAMA / BarackObama / 

@obama / obama. / #presidentobama / obamaUSA 


http://obama.com 


OBAMA‘S Watching Obama’s speech. Watching @Obama’s speech. 
OBAMA Watching #obama speech on TV Nice speech on TV! 

SPEECH, #Obama is on TV! Watching #obama... 

OBAMA TV _ | Watching obama speech. 

OBAMA, #Obama handshake with #castro Obamas handshake with 
CASTRO #obama is now on TV #raulcastro 


#castro is meeting POTUS 
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Des Weiteren besteht die Méglichkeit, mittels follow, locations und langu- 
age Filter nur Tweets bestimmter Nutzer, Orte oder Sprachen zu sammeln. Dieser 
Mechanismus ist nahezu analog zum Track Filter und wird durch kommage- 
trennte Listen definiert. Logische Operatoren stehen hier allerdings nicht zur Ver- 
fiigung. 

Der Suchfilter aus obiger Streaming API Anfrage ergibt einen beispielhaften 
Output wie in Listing 4. In Abhängigkeit der Häufigkeit der Suchergebnisse wür- 
den sequentiell alle dem Suchfilter entsprechenden Tweets angezeigt werden. Bei 
einem Fehler erschiene der entsprechende Fehlercode (siehe Code 420 am Ende 
von Listing 4). 


Listing 4: Shell-Output der Abfrage aus Listing 3 für einen Tweet. Ausgabe- 
Code durch Autor gekürzt. 


{"created at":"Sat Apr 11 11:26:02 +00002015", 
"id":586852702115663872, id str":"58685270211566387", 
"text":"ABC News: Watch President Obama Geek Out While 
Meeting Usain Bolt . More #Obama #news - http:\/\/t.co\/ 
OkWn16C9Mn", "source" :"\u003ca href=\"http: \/\/www. 1lsthead- 
lines.com\" rel=\"nofollow\"ObamaInTheNews ","trun- 
cated":false, "in reply to status id":null, 

"in reply to status id str":null,"in reply to user id":null, 
"in reply to user id str": null,"in reply to screen name": 
null,"user":{"id":45326213,"id str":"45326213","name": 
"lstHeadlines","screen name": "ObamaInTheNews", "location": 
"USA", "url": "http: \/\/www.1lstheadlines.com\/obama.htm", 
"description": "Breaking news stories about Barack Obama from 
top online news sources.","protected": false, "verified": 
false, "followers count":1616,"friends count":0, 

"listed count: 68; "favourites count":0,"statuses count": 
113751,"created_at":"Sun Jun 07 11:48:45 +0000 2009", 

Leas: wll 

"favorite count":0,"entities":{"hashtags": [{"text":"Obama", 
"indices": [74, 80]},{"text":"news", "indices": [81,86]}], 
"trends":[],"urls":[{"url":"http:\/\/t.co\/OkWn16C9Mn", "ex- 
panded_url":"http:\/\/tinyurl.com\/ltvgvk","display_ url": 
"tinyurl.com\/ltvgvk","indices":[89,111]}], 

"user mentions":[],"symbols":[]},"favorited":false, 
"retweeted":false, "possibly sensitive":false,"filter level": 
"low", "lang":"en", "timestamp _ms":"1428751562037"} 

420 
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Twitter stellt eine Liste mit Fehlercodes und Erläuterungen zur Verfügung''. Die 
Bedeutung reicht von einfachen Autorisierungs-Fehlern bis hin zu komplexen 
Problemen wie den Rate Limits. Letztere treten auf, wenn gleichzeitig zu viele 
Anfragen über eine autorisierte App innerhalb eines Zeitfensters gestartet werden. 
Sollte dieser Fehlercode missachtet werden, droht eine temporäre Sperrung 
(Blacklisting) der IP-Adresse!?. Um das zu vermeiden, ist eine differenzierte Be- 
handlung einzelner Fehler sinnvoll. Dementsprechend wird die in Listing 3 defi- 
nierte Klasse tweepylistener um einige Fälle erweitert. 


Listing 5: Erweiterte Suchklasse der Streaming API mit zusätzlichen Fällen 


class tweepylistener (tweepy.StreamListener): 
def _ init (self, api = None): 
self.api = api or API() 
self.deleted= open('geloescht.txt', 'a') 


# Bestimme Vorgehen für unterschiedliche Tweet-Typen 
def on_data(self, data): 
if "in reply to_status" in data: 
self.on status (data) 
elif "delete" in data: 
delete = json.loads(data) ["delete"]["status"] 
if self.on delete (delete["id"], delete["user id"]) is 
False: 
return False 
elif "limit" in data: 
if self.on limit (json.loads(data) ["limit"]["track"]) is 
False: 
return False 
elif "warning" in data: 
warning = json.loads (data) ["warnings"] 
print warning["message"] 
return False 


# Bestimme Vorgehen in unterschiedlichen Situationen 
# Fall 1: neuer Status-Tweet 
def on_status (self, status): 

print (status) 

return True 


!! Siehe https://dev.twitter.com/streaming/overview/connecting 
12 Weitere Informationen unter: https://dev.twitter.com/rest/public/rate-limiting 
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# Fall 2: User löscht Tweet nach gewisser Zeit 

def on_delete (self, status_id, user id): 
self.deleted.write( str(status_id) + "\n") 
return 


# Fall 3: Streaming API Rate Limit 
def on_limit(self, track): 
sys.stderr.write(time.strftime("SYSm%d-SHSM%S") + 
">> Rate Limit: " + str(track)) 
return 


# Fall 4: Fehlermeldung mit Fehlercode 
def on_error(self, status code): 
sys.stderr.write(time.strftime("SYSm%d-SHSM%S") + 
">> Fehler: " + str(status_code) + "\n") 
time.sleep (60) 
return False 


# Fall 5: Verbindungs-Timeout keine Reaktion 
def on_timeout(self): 
sys.stderr.write(time.strftime("SYSm%d-SHSM%S") + 
">> Timeout, warte fiir 120 Sekunden\n") 
time.sleep (120) 
return 


def main(): 
list_terms = ["#obama"] 
listener = tweepylistener (api) 
stream = tweepy.Stream(auth, listener, timeout=600.0) 


while True: 
print time.strftime("SYSm%d-SHSMSS") + 
">> Streaming gestartet... beobacht 
und sammle" 
print time.strftime ("%Y%m%d-%H%M%S") + 
">> Suche Twitter nach: " + 
str(list_terms) [1:-1] 


try: 
stream.filter(track=list_terms, async=False) 
break 
except Exception, e: 
time.sleep (60) 


if name ==" main ": 


main() 


4.1 Möglichkeiten der Datensammlung 51 


Die erweiterte Klasse in Listing 5 definiert nun das Vorgehen des Programms für 
die unterschiedlichen Arten von Tweets und Fehlermeldungen. Zuerst werden die 
einzelnen Tweets nach bestimmten Signalwörtern durchsucht und in Typen einge- 
teilt. Enthält ein Datensatz beispielsweise eine delete-Anweisung in Verbindung 
mit einem Account- oder Status-ID-Datenfeld, handelt es sich um eine Lösch-An- 
weisung. Enthält er ein limit, so handelt es sich um eine Mitteilung, dass das 
Bandbreiten-Limit überschritten wurde. 

Das Vorgehen in den einzelnen Situationen wird schließlich genauer vorgege- 
ben: Bei einem normalen Tweet (inklusive Retweet) wird der gesamte Tweet-Da- 
tensatz ausgegeben. Wenn ein delete-Befehl enthalten ist, schreibt das Skript die 
entsprechende Tweet-ID in die vorher definierte Textdatei geloescht.txt. So er- 
hält man im Nachhinein eine Auflistung aller gelöschten Tweets. Diese können 
bei Bedarf manuell entfernt werden. Unter Umständen ist es aber sinnvoll, diese 
Tweets zu behalten und die Löschanweisung als zusätzliche Information zu verar- 
beiten: Sei es als Anzeichen späterer Selbstselektion oder als Reaktion auf eine 
kritische Resonanz durch andere Nutzer. 

Im Fall einer Limit-Überschreitung erfolgt die Ausgabe der Meldung im Pro- 
gramm-Fenster. Diese Mitteilung enthält auch die Zahl der nicht erfassten, sozu- 
sagen verlorenen Tweets. Bei Meldungen mit Fehlercode wird dieser angezeigt 
und alle weiteren Abfragen über die Streaming API um eine Minute pausiert. 
Wenn ein Timeout der Anfrage eintritt, also nach einer vorher definierten Zeit kein 
dem Filter entsprechender Tweet übermittelt wird, pausiert das Programm für zwei 
Minuten und setzt danach die Aktivität fort. 

Diese Routine behandelt einen Großteil möglicher Probleme automatisch. Ein- 
schränkungen, die aufgrund technischer Rahmenbedingungen der Streaming API 
existieren, wie die Bandbreiten-Limitierung, können hiermit allerdings nicht um- 
gangen werden. In diesem Fall ist es bestenfalls möglich, analog zum Verfahren 
mit Delete-Anweisungen, die Limit-Meldungen mit der Anzahl der nicht erfassten 
Tweets in einer separaten Log-Datei zu speichern, sodass zumindest Zahlen über 
die Missings vorliegen. Ein nachträgliches Erfassen der ausgelassenen Tweets 
wäre nur über die REST API möglich. 


4.1.1.2 Bewertung der Streaming API 


Zusammenfassend ist die Streaming API ein geeignetes Mittel zur kontinuierli- 
chen Erfassung einer großen Anzahl von Tweets über einen längeren Zeitraum. 
Mit Hilfe intelligenter Programmroutinen läuft der Prozess der Datensammlung 
nahezu vollständig automatisiert. Die Echtzeit-Daten sind kostenlos und in nahezu 


52 4 Methoden zur Erfassung, Verwaltung und Auswertung von Tweets 


unbegrenztem Umfang verfügbar, wodurch nicht nur Ad-hoc-Analysen, sondern 
auch Langzeitstudien möglich sind. Zwar ist der Zugriff für die meisten Nutzer 
und somit auch für viele Forschende nur auf ein Prozent des gesamten Tweet- 
Aufkommens begrenzt. Eine gezielte Wahl geeigneter Filterparameter könnte die- 
ses Problem in vielen Fällen umgehen. Jedoch besteht dann die Gefahr, relevante 
Tweets durch zu strikte Filter auszusondern. Hinsichtlich der Zielsetzung, mög- 
lichst viele Daten zu sammeln, ist die Verwendung der Public Streams die einzige 
sinnvolle Methode. User Streams und Site Streams bieten nur eine Plattform für 
Web-Anwendungen, in denen sich Nutzer mit ihrem Benutzerkonto einwählen 
können und dienen daher nicht zum Sammeln von Daten. 

Zudem gibt es Verzerrungen zwischen dem über die Streaming API zur Ver- 

fügung gestellten Sample und der Grundgesamtheit, die momentan noch nicht 
kompensiert werden können (Morstatter et al., 2013, S. 9). Eine Repräsentativität 
dieses automatischen Samples ist demnach nicht gegeben. Außerdem gibt es sei- 
tens Twitter keine Angabe über die Generierung dieser Stichprobe. 
Es gilt zu beachten, dass der Abfrageprozess von Tweets aufgrund der Push-Ar- 
chitektur während der kompletten Sammlung laufen muss. Die Streaming API 
übermittelt kontinuierlich in Echtzeit Daten, die durch ein Skript sofort erfasst 
werden. Ein nachträgliches Sammeln ist demnach nicht möglich. Somit resultiert 
aus jeder Unterbrechung der Internetverbindung oder des Prozesses ein Datenver- 
lust. 

Die Tatsache, dass kein Abrufen historischer Daten möglich ist, birgt weitere 
Probleme: Trends müssen frühzeitig (also eigentlich ad hoc) erkannt werden, um 
möglichst viele relevante Tweets erheben zu können. Dies ist allerdings nur bei 
langfristig terminierten Ereignissen (wie Wahlen oder Sportereignissen) zuverläs- 
sig möglich. Spontane Bewegungen, Themen oder Ereignisse wie politische Skan- 
dale oder Naturkatastrophen können mit dieser Methode erst post hoc oder zumin- 
dest zeitlich verzögert erfasst werden. Letztlich fehlt bei Echtzeitdaten auch die 
Möglichkeit, die Anzahl von Retweets oder Favorites direkt abzufragen. Da die 
übermittelten Twitter-Daten immer Momentaufnahmen zur Veröffentlichung ei- 
nes Tweets sind, ist die Wahrscheinlichkeit hoch, dass jeder neue Tweet keine 
Favorites und Retweets hat'?. 


3 Da der Tweet sofort bei Veröffentlichung über die Streaming API übermittelt wird und die Wahr- 
scheinlichkeit sehr gering ist, dass der Tweet Millisekunden nach Veröffentlichung bereits Retweets 
oder Favorites hat, steht er folglich immer im Ursprungszustand (ohne Retweets und Favorites) im 
Datensatz. 
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Eine Erfassung (späterer) Retweets und Favorites wäre innerhalb der Public 
Streams nur über die Betrachtung des jeweils letzten/aktuellsten Retweets mög- 
lich: Die Meta-Daten eines Retweets beinhalten immer die Anzahl an Retweets 
und Favorites des Original-Tweets zum Veröffentlichungszeitpunkt des Retweets 
(siehe Abbildung 7). Wie die schematische Darstellung zeigt, taucht folglich ein 
Tweet unter Umständen mehrmals in einer Datensammlung auf: Zumindest ein- 
mal als Tweet und eventuell mehrmals als eingebetteter Retweet. Diese Methode 
könnte letztlich auch Tweets erfassen, die außerhalb des Betrachtungszeitraums 
liegen, aber als aktuelle Retweets weiterhin im Datenset auftauchen. 


Tweet X, t=0, Retweets: 0, Favorites: O 
Tweet Y, t=3, RT: [ 

J], Retweets: 0, Favorites: O 
Tweet Z, t=7, RT: [ 

'], Retweets: 0, Favorites: O 


Tweet X Tweet Y Tweet Z 

Retweets : 0 = Retweet von X = Retweet von X 

Favorites: 0 (10 RTs und 15 Favs) (15 RTs und 17 Favs) 

t=0 t=3 t=7 eel 


Abbildung 7: Ansatz zum nachträglichen Erfassen von Favorites und Retweets 
bei der Streaming API. Eigene Darstellung. 


Die Datenerfassung könnte also über die Extraktion der eingebetteten Meta-Daten 
des neuesten Retweets erfolgen. Eine weitere Möglichkeit besteht in der post-hoc 
Erfassung aller Tweets, wie es die REST APIs erlauben. Da die Daten bei Abruf 
bereits ein gewisses Alter haben, beinhaltet das nachträglich erhobene Datenset 
bereits Informationen über Retweets und Favorites bis zum Zeitpunkt der Abfrage. 
Mit der Funktionsweise sowie den Vor- und Nachteilen der REST APIs befasst 
sich nun das folgende Kapitel. 
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4.1.2 | REST APIs 


Während die Streaming API Echtzeitdaten liefert, übermitteln die REST APIs nur 
vergangenheitsbezogene Daten. REST steht fiir Representational State Transfer 
und ist ein in der digitalen Welt sehr weit verbreitetes Schema der Datenarchitek- 
tur und -weitergabe. Es kategorisiert An- und Abfragen in die Operatoren GET, 
POST, PUT und DELETE. Die REST Schnittstellen bestehen aus einem Bün- 
del an Methoden zur Daten-Interaktion, die sich erheblich von denen der 
Streaming API unterscheiden. So stehen momentan 35 Methoden fiir jeweils spe- 
zifische Abfragen zur Verfügung: Von den momentan trendigen Themen 
(Trending Topics) bis hin zu den Tweets, Retweets, Blocks, Followern und Favo- 
rites eines Nutzers. Über Kombination von Daten mehrerer Abfragen ließen sich 
zum Beispiel User-Netzwerke oder das Verhalten spezifischer Nutzer/-innen vi- 
sualisieren. Zudem besteht die Möglichkeit, nicht nur Daten zu lesen (GET -Para- 
meter), sondern auch direkt über die Schnittstelle Tweets zu posten oder Nutzern 
zu folgen (POST-Parameter) sowie Tweets und Nutzer zu löschen (DELETE). 

Für das Sammeln von Tweets eignet sich vor allem die Search API, die Teil 
der REST API ist. Diese funktioniert wie eine Suchmaske und erlaubt Suchanfra- 
gen wie: love OR hate from:mustermann until:2015-01-01 (Suche nach 
Tweets des Nutzers „mustermann“, die „love“ oder „hate“ beinhalten und vor dem 
01.01.2015 verfasst wurden). 

Twitter erlaubt in diesem Kontext eine Sortierung der Suchergebnisse: Der Pa- 
rameter result_type ermöglicht eine absteigende Sortierung nach Datum (re- 
cent), eine Ausgabe absteigend nach Popularität des Tweets (popular) oder eine 
gemischte Ausgabe (mixed), welche standardmäßig eingestellt ist (Twitter, Inc., 
2015c). Die Sortierung nach recent ist für die Datensammlung am praktikabels- 
ten, um eine Vollständigkeit der Daten zu erzielen. 

Die REST APIs stellen Daten nicht wie bei der Streaming API über die Push- 
Methode zur Verfügung, sondern übermitteln diese erst nach einzelnen Pull-Ab- 
fragen. Diese Anfragen unterliegen einer starken Reglementierung seitens Twitter. 
Je nach Abfrage-Methode gibt es unterschiedliche Einschränkungen: Jeder GET 
oder POST Befehl stellt einen Request dar. Sollen beispielsweise Tweets mit ei- 
nem oder mehreren definierten Keywords abgerufen werden, liefert die API ma- 
ximal 100 Tweets je Abfrage bei einem Limit von 180 Abfragen je 15 Minuten- 
Intervall, was ein stündliches Maximum von 72.000 gesammelten Tweets ergibt. 
Es besteht die Möglichkeit, dieses Limit auf 450 Requests je 15 Minuten zu er- 
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weitern, wenn die registrierte Twitter-Anwendung nur durch einen Nutzer verwen- 
det wird!*. Dies ergibt einen Höchstwert von 180.000 Tweets pro Stunde. Ähnlich 
restriktiv wird auch die Anzahl möglicher Abfrage-Parameter gehandhabt: Die 
API erlaubt pro Request 20 Keywords (empfohlen wird ein Wert von maximal 10) 
sowie 100 User-IDs (Twitter, Inc., 2015g). Für die nutzerspezifische Tweet-Suche 
(Suche über die Nutzer-ID) gilt die Obergrenze von 3200 Tweets. Im Anhang A 
befindet sich eine Auflistung aller Einschränkungen. 

Dieses Beispiel verdeutlicht, dass die Abfrage von Tweets stark eingeschränkt 
ist. Wächst bei der Streaming API die Obergrenze an erfassbaren Daten je Sekunde 
noch mit dem gesamten Twitter-Volumen (maximal ein Prozent des Gesamtauf- 
kommens), ist das Limit bei der REST API fixiert. Mehr als 180.000 relevante 
Tweets können in einer Stunde von einer App nicht gesammelt werden, auch wenn 
der Anteil am Gesamtvolumen womöglich deutlich geringer als ein Prozent war. 
Finden sich mehrere Millionen Tweets zu einem Suchterm und sollen diese ge- 
sammelt werden, dauert dies unter Umständen mehrere Tage. In diesem Kontext 
spielt der Verfügbarkeits-Zeitraum von Tweets eine besondere Rolle. Der Zeitho- 
rizont für die nachträgliche Suche über die REST APIs liegt momentan bei etwa 
6-9 Tagen (Twitter, Inc., 2015g). Meistens besteht keine Möglichkeit, Tweets über 
diese Periode hinaus abzurufen!>. Wäre das potentielle Datenset, das durch einen 
Suchterm angesprochen wird, sehr groß (z.B. bei einem medialen Großereignis 
wie dem Fußball WM-Finale der Männer 2014 mit über 32 Millionen Tweets), 
würde die Erfassung über die Search API mehrere Tage dauern. Dies könnte dazu 
führen, dass das relevante Datenset mit fortlaufender Zeit zum Teil aus dem ver- 
fügbaren Zeithorizont rückt und somit nicht mehr erfasst werden kann. 

Abbildung 8 veranschaulicht die Problematik in einer schematischen Darstel- 
lung. Die Search API sucht in diesem Fall inkrementell nach historischen Tweets 
zum WM-Finale. Nach jedem Request (zur Erinnerung: ein Request gibt maximal 
100 Tweets aus), sucht das Skript nach jeweils vorher veröffentlichten Tweets. 
Die Suche läuft folglich retrospektiv ab — jeder Request erfasst 100 Tweets, die 
vor dem vorigen Request datiert sind. Da pro Tag theoretisch maximal 4,32 Mil- 
lionen Tweets über die Search API gesammelt werden können, würde es über eine 
Woche dauern, bis alle 32 Millionen relevanten Tweets zum WM-Finale gespei- 


'4 Da in dieser Arbeit die wissenschaftliche Verwendung der Twitter API betrachtet wird und kein 
Online-Dienst für mehrere Nutzer, wird davon ausgegangen, dass nur ein Anwender je Twitter-Ac- 
count/App die Schnittstelle nutzt (App Auth). 

'S Die Begrenzung gilt jedoch nicht für die Tweet-Abfrage auf Nutzer-Ebene über die Timeline (GET 
statuses/user-timeline). Twitter übermittelt hier maximal die letzten 3200 Tweets eines Nutzers — 
unabhängig des Veröffentlichungszeitpunktes (Twitter, Inc., 2015d). 
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chert waren. Da sich der erfassbare Zeithorizont konstant mit der Zeit bewegt (im- 
mer die letzten sechs bis neun Tage zum momentanen Abfragezeitpunkt; in der 
Grafik durch den Zeitraum von t=0 bis t=6 dargestellt), wandern die ersten/frühen 
Tweets des relevanten Datensets bereits nach einem Tag aus dem erfassbaren Zeit- 
fenster. Einen Tag später (Zeitpunkt t=7 im unteren Bereich der Grafik) könnten 
zwar wieder bis zu 4,32 Millionen Tweets der letzten sechs bis neun Tage abge- 
fragt werden, jedoch ist der Anfang des relevanten Datensets zu diesem Zeitpunkt 
bereits außerhalb des verfügbaren Zeitfensters. 


b momentaner EN GET-Abfrage für Search API (max. 
Betrachtungszeitpunkt 18.000 Tweets pro 15 Minuten) 
Eee u 
relevante Tweets 
abrufbare Tweets 


on Y 


to t7 Zeit 
relevante Tweets 
Verlust | abrufbare Tweets 


Abbildung 8: Problem der zeitlichen Verfügbarkeit historischer Tweets über 
die REST APIs. Eigene schematische Darstellung. 


Um die negativen Folgen einiger Einschränkungen zu mindern, ermöglicht Twit- 
ter bei der REST API eine Eingrenzung der Suchergebnisse über zahlreiche Para- 
meter. Das in Abbildung 8 dargestellte Problem des dynamischen Zeitfensters für 
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Abfragen ließe sich theoretisch über die zwei Zeitparameter until und since um- 
gehen: Man startet die Suche am frühestmöglichen Zeitpunkt und sammelt zu- 
nächst die Tweets, die als erstes aus dem relevanten und verfügbaren Datenset 
fallen würden. Die Suche verläuft in diesem Fall entlang des Zeitverlaufs vom 
ältesten bis zum neuesten relevanten Tweet. Allerdings erlauben diese Parameter 
nur Datumsangaben und keine Verfeinerung der Zeitgrenzen auf Uhrzeiten. Eine 
erste Abfrage beliefe sich folglich auf einen ganzen Tag und würde schrittweise 
alle nachfolgenden Tage erfassen. Dies führt nicht nur zu Problemen mit der stren- 
gen Limitierung von Abfragen, sondern ist auch zu ungenau für die Eingrenzung 
von Suchabfragen. 

Relevant für die gängigen Abfrage-Methoden sind deshalb vor allem: 
since _id und max_id (Tweet-ID, ab/bis zu der Daten ausgegeben werden sol- 
len). Mithilfe dieser beiden Konstanten sowie Count (Höchstzahl an Ergebnissen 
je Abfrage)!®, until (Stichtag, bis zu diesem Ergebnisse angezeigt werden sollen) 
und lang (Nutzersprache) können beispielsweise Tweets zu einem Hashtag, ge- 
staffelt nach Tweet-ID, abgerufen werden, wodurch sich doppelte Abfrageergeb- 
nisse vermeiden lassen und die begrenzten Abfragen ökonomisch sinnvoll genutzt 
werden können. Jedoch löst auch dieser Ansatz nicht die Problematik des dynami- 
schen Verfügbarkeitshorizonts bei großen Datensets. Sinnvoll wäre also eine 
Kombination beider Ansätze: Mehrere Skripte mit unterschiedlicher Account- be- 
ziehungsweise App-Autorisierung sammeln simultan Tweets. Jeder Account mit 
eigener App greift dann über die REST APIs Daten eines bestimmten Zeitraums 
ab (definiert durch since und until). Durch die gestückelte Datenabfrage redu- 
ziert sich dann die Dauer der Datenerhebung. 


4.1.2.1 Anwendungsbeispiel: Erheben historischer Tweets 


Eine bereits genannte Einschränkung der Streaming API ist der Zeithorizont er- 
fassbarer Tweets: Es können nur Daten ab dem gegenwärtigen Zeitpunkt gesam- 
melt werden. Die Erhebung historischer Tweets kann nur über die REST APIs, 
beziehungsweise deren integrierte Search API erfolgen. Daneben stehen 35 wei- 
tere Methoden zur Verfügung, die jeweils spezifische Daten, wie Followers und 
Favorites von definierten Nutzern, zur Verfügung stellen. Die hinsichtlich der Da- 
tenbreite umfassendste und damit wohl auch meistgenutzte Methode ist jedoch die 
Nutzung der Search API. 


16 Der benutzerdefinierte Wert von Count muss unterhalb der von Twitter zugelassenen Zahl an Ergeb- 
nissen liegen. Dieses Limit unterscheidet sich nach Abfrage-Methode, liegt jedoch meist bei 100. 
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Listing 6: Einfache Suchabfrage nach Tweets mit „apple“ über die Search API 
import tweepy 


# Authentifizierung 

consumer key="<Consumer/API Key>" 

consumer secret="<Consumer/API Secret>" 

access key="<Access Token>" 

access secret="<Access Token Secret>" 

auth = tweepy.OAuthHandler (consumer key, consumer secret) 
auth.set access token(access key, access secret) 

api = tweepy.API (auth) 


#Definiere Suchbegriff 
term = "apple" 


#Definiere relevante Parameter der Abfrage 
for tweet in tweepy.Cursor (api.search, 
q=term, 
count=100, 
lang="de", 
result _type="recent", 
include entities=True) .items(): 
#Gebe nur Tweet-Zeitpunkt und Text aus 
print tweet.created at, tweet.text 


Das Beispiel Listing 6 zeigt eine typische Suche von Tweets, die bis zum gegen- 
wärtigen Zeitpunkt erstellt wurden und ein vorher definiertes Schlagwort enthal- 
ten. Die Autorisierung entspricht dem Vorgehen bei der Streaming API. Nach der 
Definition des Suchterms werden weitere relevante Parameter der Abfrage be- 
stimmt. Zum einen wird die Cursor-Methode verwendet, die die Ergebnisse jedes 
Requests in ein Cursor-Objekt bündelt. Ein Cursor ist ähnlich wie eine Seite und 
dient der Aufteilung der gesammelten Daten in Datenblöcke, um diese besser sich- 
ten und verarbeiten zu können. Als Ausgabe-Obergrenze für die Suchabfrage wird 
mit count ein Wert von 100 Tweets festgelegt. Dies entspricht dem allgemeinen 
Limit der REST API für Suchanfragen (siehe Anhang A). Zudem wird das Abfra- 
geergebnis auf deutsche Tweets!’ eingeschränkt und absteigend nach Tweet-Zeit- 
punkt sortiert. Die Suche integriert auch die Tweet-Entities (also #hashtags, 
@mentions, URLS etc.), sodass die API auch Tweets ausgibt, die den Begriff nicht 


17 Twitter analysiert alle Tweets und erkennt automatisch die geschriebene Sprache. Jedoch ist dieser 
Spracherkennungs-Mechanismus nicht vollkommen zuverlässig. Siehe hierzu auch Kapitel 4.3.1. 
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im Tweet-Text, aber in einer URL'® enthalten. Zur Vereinfachung der Darstellung 
wird der Output schließlich auf den Tweet-Zeitpunkt und die Nachricht be- 
schränkt. 


Listing 7: Shell-Output für Programmcode aus Listing 6 


>>> 

2015-04-13 13:12:27 RT @onlinekosten: Apple Watch: Fast eine 
Million Vorbestellungen in den USA. Welche Modelle sind 
besonders gefragt? http://t.co/Hw5eecA6x5 .. 

2015-04-13 13:12:11 New Free iPad app - Apotheke im Kaufland 
Lörrach - http://t.co/GHcSbR52uh 

2015-04-13 13:12:10 #itunes #iphoneS PhotoStitcher - Maxim 
Gapchenko http://t.co/QEJDVJMYu3 #apps #apple 

2015-04-13 13:11:31 @timohetzel das Video ist komplett 
nervig, ansonsten ist der Stick aber überraschend gut. 
Dagegen sieht der Apple TV (bisher) alt aus. 

2015-04-13 13:11:23 RT @DJUNDERGROUND: #NowPlaying "Player 
Party-IceBerg x @JTMoneyMIATL x @YoungTrizo" on @AL- 
LOUTHUSTLE.COM Listen http://t.co/l0GmimxmzJ #Clu.. 
2015-04-13 13:10:51 @CHIP_online #Apple hats vorgemacht 


Listing 7 stellt beispielhaft das Ergebnis einer solchen Abfrage dar. Dabei zeigt 
sich, dass der Suchterm nicht zwangsläufig im Tweet-Text vorkommen muss: Der 
zweite und fünfte Tweet enthalten nur in den Meta-Daten den Begriff „apple“ (hier 
im Link, der durch Twitter automatisch zu einem 1.co-Shortlink umgewandelt 
wird) und werden deshalb von der Search API als relevantes Ergebnis angesehen. 
Bei der Formulierung des Suchterms ist außerdem zu beachten, dass sich nicht nur 
der Mechanismus, sondern auch die Systematik der Suchterm-Formulierung von 
der Streaming API unterscheidet. Eine durch Komma getrennte Liste mehrerer 
Begriffe ist nicht möglich, der logische Operator OR wird direkt zwischen zwei 
Suchbegriffe geschrieben. Tabelle 4 stellt die weitere Systematik dar. 


18 Twitter kürzt alle URLs und wandelt diese in t.co-Links um. So wird aus www.link.de/ziel etwas 
wie t.co/abcde123456. Da Twitter die ursprüngliche URL in den Meta-Daten einbettet, können diese 
Teile der URL als Suchergebnis dienen. 
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Tabelle 4: Such-Operatoren der Search API. In Anlehnung an Twitter, Inc. 


(2015h). 
SUCHPARAMETER BERÜCKSICHTIGTE BEGRIFFE/TWEETS 
apple tv Tweets mit beiden Begriffen (Position egal) 
“apple tv” Tweets mit der genauen Wortfolge 
apple or tv Tweets mit einem dieser Begriffe 
apple -tv Tweets mit apple, aber ohne tv 
#apple Tweets mit Hashtag apple 
from:userx Tweets des Users userx 
to:userx Tweets an User userx (Replies oder Mentions) 
@userx Tweets mit Mention von userx 


apple or tv since:2015-07- 
01 


apple until:2015-07-01 


Alle Tweets mit Begriffen apple oder tv seit dem 
01.07.2015 


Alle Tweets mit Begriff apple bis zum 01.07.2015 


apple :) Alle Tweets mit Begriff apple und positiver Stimmung 

tv? Alle Tweets mit Begriff tv und gestellter Frage 

apple filter:links Alle Tweets mit Begriff apple und einer enthaltenen Verlin- 
kung 


Die gezeigte Abfrage tiber die Search API ist zum Beispiel als Vorbereitung fiir 
eine umfassende und langfristige Erhebung mittels der Streaming API, bei der zu- 
nachst der aktuelle Datenbestand gesichtet werden soll, oder fiir eine rein histori- 
sche Datensammlung denkbar. Möglich wäre aber auch eine ergänzende Abfrage 
von Tweets, die aufgrund eines Überschreitens der Bandbreiten-Höchstgrenze 
nicht mehr erfasst werden konnten. Dies ist wiederum mit Hilfe ergänzender Such- 
operatoren möglich. Hierfür stehen die Parameter since_id und max_id zur 
Verfügung, die die Such-Ergebnisse mit einer unteren und oberen Tweet-ID- 
Grenze einschränken können. Da Tweet-IDs fortlaufend nummeriert werden, kön- 
nen — bei Kenntnis einer bestimmten Tweet-ID — alle Tweets bis oder ab diesem 
Wert angefordert werden. 
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Es gilt jedoch zu beachten, dass die REST APIs die Anzahl von Abfragen in einem 
bestimmten Zeitintervall restriktiv behandeln (siehe oben). Diese Problematik 
sollte die Programmierung automatisierter Abfragen berücksichtigen, indem zum 
einen die Suchanfragen in Sequenzen unterteilt werden und zum anderen die Zahl 
der bereits getätigten Requests und respektive die Zahl der noch möglichen Ab- 
fragen kontrolliert wird. Tweepy ermöglicht sowohl eine Eingrenzung der Abfra- 
gen mithilfe der Parameter since _id und max_ id, als auch eine Überwachung 
der Abfrage-Limitierung. 

In Listing 8 wird der Code um die entsprechenden Funktionen erweitert. Das 
Programm soll in diesem Fall nachträglich bis zu eine Million Tweets mit dem 
Begriff ,,tatort“ erfassen. Zudem speichert die Suchschleife alle ermittelten Tweets 
in einer Textdatei. Das Programm sucht in sequentiellen Abfragen retrospektiv 
nach Tweets, die dem Suchterm entsprechen. Dabei findet auch ein Abgleich nach 
Duplikaten statt. Der Suchbereich wird anhand automatisch gesetzter Werte für 
sinceID und maxID dynamisch begrenzt: die Schranken verschieben sich je 
Anfrage, wobei in diesem Fall die obere Grenze der ID des jeweils zuletzt gespei- 
cherten Tweets entspricht und die untere Grenze nicht definiert ist. Möglich ist 
aber auch eine manuelle Festlegung auf bestimmte IDs. Pro 15-Minuten-Intervall 
tätigt das Skript 450 Requests, die jeweils maximal 100 Tweets sammeln. Diese 
Werte entsprechen den maximal zugelassenen Interaktionen per AppAuth über die 
REST API, welche während der gesamten Programmaktivität durch das Pro- 
gramm überwacht werden. Dies gewährleistet, dass die Limits nicht überschritten 
werden, sondern das Programm bis zum nächsten Zeitfenster pausiert. Die Zahl 
der gesammelten Tweets je Sequenz wird addiert und mit einer zuvor definierten 
Obergrenze abgeglichen. Bei Erreichen dieses Limits endet der Prozess. 

Somit ist diese Programmschleife zum nachträglichen Sammeln von Tweets 
geeignet: Nach Initiierung erfolgt der Erfassungs- und Speicherprozess selbststän- 
dig, in Abhängigkeit der verfügbaren Requests. Es gilt jedoch zu beachten, dass 
eine Änderung der Paramater nach Start des Prozesses nicht mehr möglich ist. Bei 
einer Anpassung des Suchterms oder der oberen/unteren Tweet-ID muss der Pro- 
zess neu gestartet werden. 
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Listing 8: Erweiterte Suchschleife zur Abfrage von Tweets tiber die REST API 


import tweepy, time, sys, os, jsonpickle 

res | 

api = tweepy.API (auth, wait _on rate limit=True, 
wait on rate limit notify=False) 


if (not api): 
print (time.strftime ("SYSmSd-SHSM%S") + 
" Autorisierungsfehler") 
sys.exit(-1) 


term = "tatort" 

exportfile = "tatort.txt" 

maxTweets = 1000000 

qLimit = 100 

sinceID = None # oder sinceID = 012345678 

maxID = -1L # oder maxID = 123456789 

tweetCount = 0 # Setze Zahler zu Beginn auf 0 

print("Beginne mit dem Sammeln von maximal {0} Tweets mit 
dem Begriff '{1}'".format (maxTweets, term) ) 


# Definiere Schleife 
with open(exportfile, "w") as file: 
while tweetCount < maxTweets: 
try: 
if (maxID <= 0): 
if (not sincelD): 


newTweets = api.search(q=term, count=qLimit) 
else: 
newTweets = api.search(q=term, count=qLimit, 
since id=sincelD) 
else: 
if (not sincelD): 
newTweets = api.search(q=term, count=qLimit, 
maxID=str (maxID - 1)) 
else: 
newTweets = api.search(q=term, count=qLimit, 


maxID=str (maxID - 1), 
since id=sincelD) 
if not newTweets: 
print("keine weiteren Tweets gefunden") 
break 
for tweet in newTweets: 
file.write(jsonpickle.encode (tweet. json, 
unpicklable=False) + "\n") 
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tweetCount += len (newTweets) 
print (time.strftime ("$Y$m3d-%H%M%S") + " | {0} Tweets 
gedownloaded".format (tweetCount)) 
maxID = newTweets[-1].id 
except tweepy.TweepError as error: 


print("Fehler : " + str(error)) 
break 
print ("------------------ ") 


print("{0} Tweets in {1} gespeichert".format (tweetCount, 
exportfile)) 


4.1.2.2 Bewertung der REST APIs 


Grundsätzlich sind die REST APIs ein umfassendes Toolkit mit einer Vielzahl an 
Einsatzmöglichkeiten und damit ähnlich geeignet für das Sammeln von Daten, wie 
die Streaming API. Allerdings hat die Schnittstelle eine grundlegend andere Funk- 
tionsweise als die zuvor betrachtete Streaming API. Es werden nur historische Da- 
ten übermittelt und diese nur nach spezifischer Anfrage. In ihrer Funktionsweise 
ist die Schnittstelle sowohl zur Einarbeitung beziehungsweise Sichtung der Da- 
tengrundlage zu Beginn eines Forschungsprojektes, als auch zur Erhebung voll- 
ständiger Datensätze ideal. Denkbar ist auch eine Verwendung als zusätzliche Da- 
tenquelle, falls das Bandbreiten-Limit der Streaming API überschritten wurde und 
diese nicht erfassten Tweets nachträglich in den Datensatz aufgenommen werden 
sollen. Des Weiteren stehen umfassende Abfragemöglichkeiten zur Verfügung: 
Neben trendigen Themen (Trending Topics) oder an einem bestimmten Ort veröf- 
fentlichte Tweets auch sehr spezifische Informationen, wie die Friends eines Twit- 
ter-Users oder dessen Favorites und Retweets. Dies erlaubt nicht nur das Abbilden 
des historischen Nutzerverhaltens, sondern auch ganzer Nutzer-Netzwerke. 
Andererseits bewirkt die Fülle an Abfragen und Kombinationsmöglichkeiten 
auch eine höhere Komplexität der Datenverarbeitung. Es stehen insgesamt 36 un- 
terschiedliche Methoden zur Verfügung, die sich sowohl hinsichtlich ihrer Funk- 
tion, als auch ihrer Parameter unterscheiden. Um verwertbare Daten zu erhalten, 
sind oftmals mehrere Abfragen mit unterschiedlichen Methoden notwendig, deren 
Ergebnisse dann verknüpft werden müssen. Um beispielsweise das Netzwerk ei- 
nes Nutzers aufzulisten, sind zwei separate Requests notwendig; GET 
friends/ids und GET followers/ids, die dann wiederum mit GET mu- 
tes/users/ids abgeglichen werden müssen. Des Weiteren ist die Anzahl an Re- 
quests streng reglementiert. Je nach Methode dürfen innerhalb eines 15-Minuten- 
Intervalls 15 bis 450 Abfragen gestartet werden, die wiederum einen limitierten 
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Datenumfang haben. Dadurch wird zwar eine Uberlastung der Twitter-Server ver- 
mieden, allerdings erhöht die unübersichtliche Struktur an Einschränkungen eben- 
falls die Komplexität von Abfragen. Nutzer der REST API müssen immer darauf 
achten, die jeweiligen Höchstgrenzen einzuhalten, um nicht eine Sperrung der IP- 
Adresse zu riskieren. 

Wie bereits erwähnt, stellt die REST API nur historische Daten zur Verfügung. 
Dies hat den Vorteil, wichtige Daten ex post abrufen zu können. Da sich Trends 
beziehungsweise populäre Themen auf Twitter meist sehr schnell formieren und 
ebenso schnell wieder abebben, ist eine nachträgliche Daten-Erhebung für wissen- 
schaftliche Zwecke sehr praktikabel. Somit muss man nicht innerhalb kürzester 
Zeit auf Trends reagiert oder einen etwaigen Verlust von Tweets vor Betrachtung 
eines Themas befürchten. Allerdings ist der Zeitraum für die vergangenheitsbezo- 
gene Tweet-Erfassung ebenfalls eingeschränkt: Laut Twitter (2015g) stehen über 
die Search API nur Tweets zur Verfügung, die nicht älter als 6 bis 9 Tage sind. 
Somit ist beispielsweise eine nachträgliche Betrachtung von älteren Themen/Er- 
eignissen über diese Schnittstelle nicht möglich. Zudem gilt es zu beachten, dass 
bei sehr bedeutenden Ereignissen mit mehreren Millionen potentiell relevanten 
Tweets die Gefahr besteht, aufgrund der sehr eingeschränkten Sammel-Kapazitat 
von 180.000 Tweets pro Stunde nicht rechtzeitig alle Tweets zu sammeln, bevor 
diese aus dem verfügbaren Zeitfenster verschwinden (siehe weiter oben). 

Letztlich sollte auch die Qualität des Datensets kritisch betrachtet werden: 
Twitter (2015g) gibt an, dass die REST API Daten nicht mit dem Anspruch auf 
Vollständigkeit übermittelt, sondern die Ergebnisse nach Relevanz auswählt. Die 
Zahl der verfügbaren historischen Tweets hängt von der Relevanz des Themas im 
gesamten Tweet-Volumen ab. Bei unbedeutenden Themenkomplexen kann der 
Zeithorizont auch geringer als die mögliche Zeitspanne von 6 bis 9 Tagen ausfal- 
len. Beziehungsweise kann es durchaus sein, dass nicht alle Daten, die den Filter- 
kriterien entsprechen, zur Verfügung stehen. 

Das Konzept der Vollständigkeit der Twitter-Daten verfolgt vor allem der kos- 
tenpflichtige Anbieter Gnip. Die Möglichkeit, Tweets und deren Metadaten über 
Drittanbieter zu sammeln oder über Datenhändler zu erwerben, soll im Folgenden 
skizziert werden. 
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4.1.3 Drittanbieter 


Zusätzlich zu der manuellen Datenerhebung über die Twitter APIs stehen spezia- 
lisierte Online-Dienstleister zur Verfügung. Die bekanntesten sind Gnip’? und Da- 
taSifi?’. Im April 2015 gab jedoch Datasift bekannt, dass das Unternehmen ab Au- 
gust 2015 den Zugriff auf Twitter-Daten verliert (Halstead, 2015). In Zukunft soll 
Gnip der einzige Anbieter für Twitter-Daten sein, womit sich Twitter die alleinige 
Kontrolle über die kommerzielle Verwertung seiner Daten schafft (Hofer-Shall, 
2015). Auf Basis einer monatlichen Gebühr (mehrere tausend USD) können unter 
anderem repräsentative Stichproben (z.B. das 10%-Sample Decahose von Gnip) 
oder historische Tweets bis zu einem Stichtag angefordert werden. Das verfügbare 
Datenset ist somit hinsichtlich der Informationstiefe sehr ausführlich?', weist je- 
doch im Normalfall in der Breite nicht den Datenumfang auf, der theoretisch mit 
gebündelten Abfragen über beide APIs abgerufen werden könnte. Gnip beschränkt 
sich hier, aufgrund der großen Datenmenge, auf die gängigsten Metadaten (Gaff- 
ney & Puschmann, 2014, S. 58). Statt einem Request über einer der APIs müssen 
hier spezifische Datenanfragen an den Dienstleister gestellt werden, der dann — je 
nach Datentyp — die relevanten Daten einmalig oder regelmäßig übermittelt. Die 
Daten sind bereits strukturiert und können beispielweise als Datenbank-Import o- 
der mit vorher extrahierten, relevanten Werten versendet werden. 

Neben Gnip steht eine größere Zahl kostenloser oder gebührenpflichtiger Pro- 
gramme oder Dienste zur Verfügung, die das Sammeln von Tweets vereinfachen, 
jedoch teilweise nur eingeschränkte Funktionen beinhalten. Als beispielhafte Aus- 
wahl dieser Dienste stellt diese Arbeit die zwei gängigen Online-Dienste Twito- 
nomy und Tweet Archivist vor. 

Twitonomy (Diginomy Pty Ltd., 2015) erlaubt in seiner kostenlosen Version 
unter anderem das Sammeln von Tweets, ein Aggregieren von Tweets eines Nut- 
zers sowie grundlegende Analysen tiber dessen Twitter-Verhalten, Interaktion und 
Vernetzung. Die kostenpflichtige Variante beinhaltet detailliertere Informationen 
und eine Funktion zum Speichern beziehungsweise Exportieren von Tweets und 
Analysen als PDF oder Excel-Sheet. Twitonomy ist sehr einstiegsfreundlich und 
gibt mit geringem Aufwand viele aufschlussreiche und übersichtlich dargestellte 
Informationen. Ebenso ist der Export der Daten intuitiv. Dennoch eignet sich der 
Dienst nur für die Einarbeitung in die Twitter-Forschung, oder — bei geringem 
Informationsbedarf — für sehr grundlegende Analysen. Die Datenverfügbarkeit ist 


1 Gnip wurde 2014 von Twitter übernommen. www.gnip.com 

20 www.datasift.com 

2! Bei Gnip sind alle Tweets seit dem Tag der Freischaltung des Online-Dienstes (21.05.2006) gespei- 
chert. 
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sehr eingeschrankt: Es stehen nur die etwa 3000 neuesten Tweets zu einem Hash- 
tag oder Nutzer zur Verfügung. Zudem übermittelt Twitonomy nur einen sehr ru- 
dimentären Datenumfang: Neben Datum, Nutzername und Tweet-Text umfasst 
ein Datensatz nur den Link zu diesem Tweet, die Client, über den der Tweet ge- 
schrieben wurde sowie Angaben über Followers, Retweets und Favorites. Das Da- 
tenmaterial ist dabei immer historisch. Twitonomy verwendet also die REST APIs. 

Demgegenüber ermöglicht Tweet Archivist sowohl retrospektive Abfragen 
(bis zu maximal 2000 Tweets) also auch das Einrichten von zukünftigen Abfragen 
über die Search API (Tweet Archivist, Inc., 2015a). Die Kernfunktion ist das De- 
finieren von Suchtermen, für die der Dienst (stündlich aktualisiert) alle zugehöri- 
gen Tweets ausgibt. Die Ausführung der REST API-Abfragen wird folglich auf 
die Server von Tweet Archivist ausgelagert, welcher die Suchabfragen koordi- 
niert. Zusätzlich besteht auch hier die Möglichkeit, grundlegende Statistiken über 
Nutzer, Inhalte oder die zeitliche Verteilung abzurufen. Momentan können bei ei- 
ner monatliche Pauschale bis zu drei Archive, also drei Suchabfragen, eingerichtet 
werden. 

Dennoch eignet sich auch Tweet Archivist nur für die Einarbeitung in die Twit- 
ter-Forschung oder für sehr einfache und limitierte Abfragen. Das Unternehmen 
gibt eine maximale Archivgröße von 50.000 Tweets an, danach erfolgt eine neue 
Befüllung mit Daten (Tweet Archivist, Inc., 2015b). 

Zusammenfassend sind beide vorgestellten Online-Dienste nur eingeschränkt 
für die wissenschaftliche Nutzung zu empfehlen. Aufgrund des begrenzten Daten- 
umfangs (hinsichtlich Breite und Tiefe) besteht kaum eine Möglichkeit, ausrei- 
chend große Datensets zu erzeugen. Zudem fehlt ein Einblick in die Erzeugung 
des übermittelten Datensets: Die Daten werden aus einer Black Box geliefert, ohne 
dass Einblicke in die Auswahlmethoden oder die Zuverlässigkeit der Datenerfas- 
sung (Missings, Latenzen) gewährt werden (Gaffney & Puschmann, 2014). Ge- 
rade im Hinblick auf Reliabilität sind Online-Dienste somit für die Erhebung von 
Daten für wissenschaftliche Analysen ungeeignet, sondern eher für das Einarbei- 
ten in die Thematik. Demgegenüber ermöglicht Gnip einen umfassenden Zugriff 
auf theoretisch alle verfügbaren Twitter-Daten. Jedoch sind alle Datenanfragen 
mit sehr hohen Kosten verbunden. 
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4.1.4 Vergleich der Möglichkeiten zur Datensammlung 


Ein Vergleich der vorgestellten Möglichkeiten zur Datenabfrage ist schwierig, da 
sich alle Varianten in Zeitraum, Umfang und Methode der Erhebung grundsätzlich 
unterscheiden (siehe Abbildung 9). Die Streaming API übermittelt nach einmali- 
ger Initiierung des Abfrageprozesses zeitlich unbegrenzt Echtzeitdaten, die an- 
hand von Filtern eingegrenzt werden. Dagegen erlauben die REST APIs nur die 
Erfassung historischer Daten eines begrenzten Zeitraums, wobei diese explizit 
(und bei höherem Datenumfang mehrfach und sequentiell) angefragt werden müs- 
sen. Der Datenanbieter Gnip bietet wiederum Daten von sowohl vergangener als 
auch zukünftiger Tweets, jedoch in einem eingeschränkten Informationsgrad und 
vor allem bei einer hohen monatlichen Gebühr. Gerade hinsichtlich des finanziel- 
len Aspektes ist die Variante, Daten über Drittanbieter zu erhalten, wohl für viele 
Forschungszwecke unattraktiv. 


Gnip 


REST APIs Streaming API 


Twitonomy Tweet Archivist 
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Abbildung 9: Zeithorizont verschiedener Methoden zur Datensammlung. 
Eigene Darstellung. 


Die Streaming API bietet ideale Möglichkeiten zum Sammeln eines möglichst 
kompletten und zeitlich unbegrenzten Datensatzes relevanter Tweets (oder eines 
Samples aller Tweets) ab einem definierten Zeitpunkt, wogegen hier die Möglich- 
keit fehlt, historische Tweets zu erfassen. Sofern die Menge relevanter Tweets 
nicht ein Prozent des Gesamtvolumens überschreitet, werden alle Daten ohne Ein- 
schränkung übermittelt. Sinnvoll gesetzte Abfrage-Filter können das Risiko einer 
Bandbreitenüberschreitung auf ein akzeptables Niveau senken. Jedoch reichen 
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auch diese Filter bei sehr populären Themen (wie Katastrophen) unter Umständen 
nicht aus, um das Suchergebnis ausreichend einzugrenzen. Wie bereits aufgezeigt, 
besteht aufgrund der Funktionalität der Schnittstelle keine Möglichkeit, Tweets 
vor dem gegenwärtigen Zeitpunkt zu sammeln — diese Funktion ersetzen die REST 
APIs. 

Die REST APIs beziehungsweise deren Search API eignen sich hervorragend 
für frühe Phasen eines Forschungsprojektes: Die Abfrage historischer Twitter-Da- 
ten ermöglicht einen Überblick der Datenstruktur, Kommunikationsweisen und 
Häufigkeiten. Die Begrenzung der Datenabfrage hinsichtlich Umfang und Zeitin- 
tervall kann mit geringem Programmieraufwand kontrolliert und durch sequenti- 
elle Abfragen mit entsprechenden Parametern nahezu umgangen werden (siehe 
Listing 8). Denkbar und sinnvoll ist auch die nachträgliche Suche von Tweets, die 
bei Überschreiten des Bandbreiten Limits der Streaming API nicht erfasst wurden. 
Dies bedarf allerdings einer Kenntnis der Zeitpunkte, zu denen eine Überschrei- 
tung stattfand, um über die erste und letzte Tweet-ID dieses Zeitfensters die Suche 
nach Tweets einzugrenzen. Deshalb empfiehlt sich eine Speicherung der Limits in 
Logfiles. Ein anschließender Dubletten-Abgleich filtert schließlich bereits vorhan- 
dene Tweets. Jedoch ist der Zeitraum für die Datenerfassung über die REST API 
nur auf etwa eine Woche begrenzt und eine Vollständigkeit des Datensatzes für 
diese Zeitspanne nicht garantiert. Dementsprechend sollte die Nutzung der REST 
APIs immer mit Vorsicht erfolgen. 

Daher eignen sich beide Twitter-Schnittstellen nicht zur Generierung valider 
Daten aus der größeren Vergangenheit für Forschungszwecke. Hierfür müssen In- 
formationen vom Drittanbieter Gnip erworben werden. Während bei der 
Streaming API das Datenvolumen unter Umständen zu groß ist und durch Filter 
beschränkt werden muss, besteht bei der REST API wiederum die Gefahr, dass 
nicht (mehr) alle Daten übermittelt werden können. Dieses Problem gibt es bei 
gekauften Daten nicht: Gnip besitzt einen exklusiven und uneingeschränkten Zu- 
griff auf alle Tweet- und Nutzer-Daten und speichert diese für mehrere Jahre. Dies 
ermöglicht auch Langzeitstudien oder komparative Analysen der Daten verschie- 
dener Jahre. Die Daten sind jedoch, in Abhängigkeit vom gewünschten Umfang, 
kostspielig. 

Sowohl über die Streaming API als auch über die REST API lassen sich weder 
valide Vollerhebungen, noch verlässliche Zufallsstichproben generieren. Die Aus- 
gabe der REST APIs basiert, wie bereits angemerkt, auf Relevanz und nicht Voll- 
ständigkeit. Selbst wenn über die Streaming API das Limit von einem Prozent 
nicht überschritten wird, gewährleistet Twitter keine vollständige Übermittlung 
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aller relevanten Tweets zum Suchterm. Die Betrachtung birgt bei diesen beiden 
Datenquellen immer ein Risiko. 

Bei Daten, die durch die Twitter APIs gesammelt wurden, besteht im Hin- 
blick auf rein quantitative Analysen zudem die Gefahr der Fehlinterpretation von 
Tweet-Volumina. Aufgrund des unbekannten Gesamtvolumens auf Twitter könn- 
ten eigentlich natürliche Veränderungen im Tweet-Volumen überbewertet wer- 
den. Gerade bei geringen Betrachtungszeiträumen sind Daten anfällig für tages-, 
zeit- und nutzerbedingte Schwankungen, beispielsweise durch Wetter, Tag-Nacht- 
Wechsel, Zeitzonen oder dem individuellen Nutzerverhalten. Eine plötzliche 
Spitze in der Hashtag-Häufigkeit bedeutet demnach nicht zwangsläufig eine hohe 
Popularität, sondern kann auch aus einem allgemeinen Anstieg der momentan ak- 
tiven Nutzerzahl (aufgrund der Tageszeit) resultieren. Demnach sollte eine rein 
quantitative Betrachtung von Tweet-Häufigkeiten immer im Kontext der Gesamt- 
zahl aller Tweets zu diesem Zeitpunkt betrachtet werden. Es besteht allerdings nur 
die Möglichkeit, diese Werte über die eingeschränkt verfügbare, beziehungsweise 
kostenpflichtige Firehose abzurufen (bei Gnip). Eine Einordnung der erfassten 
Werte ist somit in den meisten Fällen mit kostenlosen Mitteln kaum oder gar nicht 
möglich. Tabelle 5 (nächste Seite) fasst die jeweiligen Vor- und Nachteile der vor- 
gestellten Quellen nochmals zusammen. 

Sollten Tweets ohne zusätzliche Kosten erhoben werden, ist letztlich die Art 
der zu erhebenden Daten für die Wahl der Datenquelle entscheidend. Hinsichtlich 
der Datenstruktur sind beide Schnittstellen nahezu identisch. In manchen Fällen 
ist eine Kombination beider APIs die praktikabelste Methode zur Datenerfassung 
auf Twitter, um die jeweiligen Beschränkungen zu mindern, beziehungsweise 
Vorteile bestmöglich zu nutzen. Die REST APIs dienen dabei zur Sichtung, Ein- 
arbeitung sowie zur Erhebung vergangener Tweets oder nutzerspezifischer Infor- 
mationen. Außerdem werden sie, bei Überschreiten des Bandbreitenlimits der 
Streaming API, zur nachträglichen Erfassung „verloren gegangener“ Tweets ein- 
gesetzt. Die Nutzung der Streaming API erfolgt dagegen ab einem definierten 
Zeitpunkt zur Sammlung aller zukünftigen Tweets. Somit werden die Stärken bei- 
der APIs kombiniert: Die mächtigen Suchwerkzeuge der REST API und deren 
Fähigkeit, zeitgleich eine große Anzahl an Parametern abzufragen, und die um- 
fangreichen Datenströme der Streaming API, die in Echtzeit eine zeitlich unbe- 
grenzte Zahl von Tweets inklusive aller Meta-Daten übermitteln. 

Nachdem nun einzelne, gängige Ansätze zur Datensammlung präsentiert so- 
wie die Vor- und Nachteile für die Forschung aufgezeigt wurden, folgt im nächs- 
ten Kapitel eine Betrachtung von Möglichkeiten zur Speicherung und Verwaltung 
der gesammelten Daten. 
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Tabelle 5: Vergleich der Quellen für Twitter-Daten 


EIGEN- 
SCHAFTEN 


VORTEILE 


NACHTEILE 


STREAMING API 


Echtzeit-Daten 

3 Streams 

Daten in JSON-For- 
mat 


Kostenlos* 
Filtermöglichkeiten 
Keine Begrenzung 
des Zeitintervalls 
Verfolgung/Proto- 
kollierung von ge- 
löschten Tweets 


Bandbreiten-Limitie- 
rung, die vor allem 
bei Großereignissen 
schnell erreicht wird 
Keine historischen 
Daten 

Favorites, Retweets 
schwer zu erheben 
Kein Anspruch auf 
Vollständigkeit 
Keine Informationen 
über Gesamtvolu- 
men für Einordnung 
Prozess muss konti- 
nuierlich laufen, 
jede Unterbrechung 
bedeutet Datenver- 
lust 


REST APIs 


Historische Daten 
36 Abfrage-Metho- 
den 

Daten in JSON-For- 
mat 


Kostenlos 

Vielzahl an Abfrage- 
und Filtermethoden 
Nachträgliche Da- 
tenabfrage 


Restriktive Daten- 
ausgabe 

Kurzer Zeithorizont 
Komplexität der Ab- 
fragestruktur 

Kein Anspruch auf 
Vollständigkeit 
Keine Informationen 
über Gesamtvolu- 
men auf Twitter für 
Einordnung 


DRITTANBIETER 


Echtzeit- und histo- 

rische Daten (unter- 
schiedlich) 

Mehrere Datenfor- 

mate möglich 


Umfassende Daten 
(hinsichtlich Zeit- 
raum) 

Usability 

Minimaler Aufwand 
Keine Programmier- 
kenntnisse notwen- 
dig 

Bereits strukturierte 
und angereicherte 
Daten 


Kostenpflichtig und 
kostspielig 
Vollständigkeit des 
Tweet-Sets nicht ge- 
währleistet 

Keine Angaben über 
Reliabilität 

Black Box - Erhe- 
bungsverfahren un- 
bekannt 


*) bei Verwendung der standardmäßigen Streaming API (Spritzer) 
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4.2 Systeme der Datenverwaltung 


Dieses Kapitel behandelt die Speicherung und Verwaltung der Daten, die durch 
die im vorigen Kapitel gezeigten verschiedenen Ansätze gewonnen wurden. Hier- 
für stehen sehr unterschiedliche Möglichkeiten zur Verfügung. Zuerst soll das 
Speichern in einfache Text-Dateien betrachtet werden, das bereits im vorangegan- 
genen Kapitel kurz angesprochen wurde. Schließlich befasst sich Kapitel 4.2.2 mit 
Datenbanksystemen, die ein systematischeres und verlässlicheres Sichern der Da- 
ten ermöglichen. Hierbei werden zunächst zwei unterschiedliche Datenbank-Ar- 
chitekturen skizziert, um schließlich beispielhaft den Speicherprozess zum Daten- 
banksystem MongoDB zu zeigen. Abschließend folgt ein Vergleich aller betrach- 
teten Alternativen. 


4.2.1 Speicherung in Textdateien 


Die wohl einfachste Methode zum Speichern von Tweets ist die Verwendung von 
einzelnen Dateien, die die Tweets deserialisiert im JSON-Format oder bereits for- 
matiert, gefiltert und umstrukturiert beinhalten. Für den Export von Twitter-Daten 
eignen sich TXT- oder JSON-Dateien, die Tweets im ursprünglichen JSON-For- 
mat umfassen, oder CSV-Dateien, die bereits selektierte Werte beinhalten. Python 
bietet die Möglichkeit, Tweets sowohl im JSON-Format abzuspeichern, als auch 
umstrukturiert im CSV-Format. Während die benötigten Programmteile zum Le- 
sen der Daten bereits in Python integriert sind, muss jedoch ein zusätzlicher Kon- 
verter zur Ausgabe strukturierter JSON-Daten installiert werden, um Datenströme 
nahezu direkt in Textdateien zu schreiben. Es müssen lediglich die im Binär-Code 
vorliegenden JSON-Daten (BSON) aus der Twitter-API in ein strukturiertes 
JSON-Format deserialisiert werden. Dies erfolgt in der Regel mit einem json- 
pickle.encode-Befehl. Die Codierung erfolgt schrittweise je Datensatz. 

Der Auszug in Listing 9 zeigt ein einfaches Verfahren zum Abspeichern von 
Tweets im JSON-Format. In diesem Beispiel sollten Tweets mit dem Begriff „Tat- 
ort“ nachträglich über die REST APIs gesammelt werden. Nach der Definition des 
Datei-Namens und Formates wurde im Skript das Vorgehen bei neuen Tweets vor- 
gegeben. Jeder neue Tweet wird im JSON-Format als neue Zeile dem Dokument 
angefügt, sodass jede Zeile einem Tweet entspricht. Jeder Schreibvorgang erhöht 
den Zähler um 1. Bei Erreichen des definierten Maximalwerts stoppt die Schleife 
den Speicherprozess. 
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Listing 9: Speicherung von Tweets in eine Textdatei (Auszug aus Listing 8) 


| re | 
exportfile = "tatort.txt" 
maxTweets = 1000000 
| 
with open (exportfile, "w") as file: 
while tweetCount < maxTweets: 
try: 
[...] 
for tweet in newTweets: 
file.write(jsonpickle.encode (tweet. json, 
unpickable=False) + "\n") 
tweetCount += len (newTweets) 


[+] 


Die Begrenzung der Tweetsammlung ist in mehreren Hinsichten sinnvoll: Sie 
dient indirekt zur Kontrolle von Umfang und zeitlicher Relevanz, sodass beispiels- 
weise nur die letzten/neuesten 1.000 Tweets gesammelt werden. Letztlich steuert 
eine Begrenzung auch die Dateigröße, was sich wiederum auf die erforderliche 
Rechenleistung auswirkt. Größere Dateien mit mehreren Gigabyte erfordern für 
die Analyse und Verarbeitung der gesammelten Daten eine bessere Systemaus- 
stattung. Zudem gibt es je nach Dateisystem unterschiedliche Anforderungen hin- 
sichtlich der maximal erlaubten Dateigröße: FAT32, ein gängiger Standard von 
USB-Sticks, erlaubt beispielsweise nur Dateigrößen bis etwa 4 Gigabyte. Sollte 
der Datenumfang sehr groß und nur schwer kalkulierbar sein, weil Tweets über 
einen längeren Zeitraum mit Hilfe der Streaming API gesammelt werden, besteht 
die Möglichkeit, den Datensatz auf mehrere Dateien zu verteilen. Dies soll im fol- 
genden Beispiel näher erläutert werden. 


4.2.1.1 Anwendungsbeispiel: Speichern von Tweets in JSON- und CSV-Dateien 


Fallt bei der Wahl der Speichermethode von Twitter-Daten die Entscheidung auf 
Textdateien, ist es in vielen Fällen (wie bereits oben erwähnt) sinnvoll, die Daten 
auf mehrere Dateien zu verteilen. Auch hierfür kann ein Zähler eingesetzt werden, 
um die Aufteilung der Daten zu steuern. Listing 10 (nächste Seite) zeigt den Pro- 
grammauszug eines Skripts zum sequentiellen Speichern in einzelnen JSON-Da- 
teien. Dazu wurde die Klasse tweepylistener aus Listing 5, die der Erhebung 
von Tweets mit dem Inhalt „obama“ diente, um einige Parameter erweitert. Die 
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Datei-Benennung erfolgt in diesem Anwendungsfall mit dem Zeitstempel der je- 
weiligen Dateierstellung, was ein Suchen beziehungsweise Eingrenzen von 
Tweets auf bestimmte Dateien anhand der Zeitangabe ermöglicht. Zusätzlich wird 
ein Datei-Präfix eingefügt, das in diesem Fall dem Suchterm entspricht. Jeder neue 
Tweet erhöht den Zählerstand counter. Nach einem vorher bestimmten, maxi- 
malen Zählerstand (hier 1000) legt das Skript alle weiteren Tweets in einer neuen 
Datei ab, bis wiederum das definierte Limit erreicht ist. 

Neben dem direkten JSON-Export erlaubt Python auch eine Konvertierung in 
das CSV-Format. Hier besteht die Möglichkeit, bereits vorher relevante Datenfel- 
der auszuwählen und diese dann je Tweet zeilenweise zu speichern. Dies ist von 
Vorteil, wenn zum einen keine Möglichkeiten zur nachträglichen Verarbeitung 
von JSON-Daten bestehen oder wenn zum anderen bereits vor Erhebung sicher 
ist, dass nur bestimmte Datenfelder benötigt werden. Eine Beschränkung auf we- 
sentliche Daten verringert den Datenumfang deutlich, da einige Entities Informa- 
tionen beinhalten, die für Auswertungen unerheblich sind, wie beispielsweise gra- 
fische Angaben zum Profil. 


Listing 10: Erweiterter Prozess zum Speichern in mehreren Textdateien 


import tweepy, time, sys, json 


| 


class tweepylistener (tweepy.StreamListener): 


def _ init (self, api = None, prefix = "obama"): 
self.api = api or API() 
self.counter = 0 


self.prefix = prefix 
# Definiere Zieldatei für Tweet-Daten 
self.output = open ("<Datei-Pfad>" + prefix + "." + 

time.strftime ("$Y%3m%d-%3H%M%S") + 
" .json" y "w") 

# Definiere Zieldatei für Daten gelöschter Tweets 

self.deleted = open("geloescht.txt", "a") 

[wu] 


# Bestimme Vorgehen in unterschiedlichen Situationen 
# Fall 1: neuer Status-Tweet 
def on_status (self, status): 
try: 
self.output.write (status + "\n") 
self.counter += 1 
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if self.counter >= 1000: 
self.output.close() 
self.output = open ("<Datei-Pfad>" + self.prefix + 
"" + time.strftime ("SY%m%d- \ 
SHSMSS") + ".json", "w") 
self.counter = 0 
sys.stdout.write(time.strftime("SYSm%d-SHSM%S") + 
">> Neue Datei erstellt \n") 


return 


[=] 


Ein Export aller Felder im CSV-Format ist allerdings aufgrund des leistungs- und 
zeitintensiven Prozesses zur Extrahierung, Decodierung und Restrukturierung der 
Daten nicht sinnvoll. Zwar ist das CSV-Format mit seiner Tabellen-Struktur deut- 
lich kompakter als das JSON-Format, bei dem jedes Daten-Feld einzeln definiert 
werden muss. Jedoch ist ein Zusammenfügen von Datensätzen im JSON-Format 
wesentlich komfortabler und sicherer. Bei CSV muss die Reihenfolge und Voll- 
ständigkeit der Felder unbedingt eingehalten werden, da sonst die Zuordnung der 
Werte nicht mehr stimmt. Fehlende Werte erhalten einen Leereintrag in einer 
Zelle, um die feste Struktur der Daten zu erhalten. Dagegen sind JSON-Daten un- 
sortiert und können in ihrem Umfang unvollständig sein: Nur vorhandene Werte 
werden gespeichert, die Reihenfolge ist unerheblich. Dadurch können JSON-co- 
dierte Daten einfach aneinandergefügt werden, während bei CSVs zuerst die Rei- 
henfolge der Daten und Konsistenz der Struktur überprüft werden muss. 

Das Skript in Listing 11 extrahiert zur Veranschaulichung einzelne Tweet-En- 
tities aus Streaming-Daten schreibt diese in eine CSV-Datei. Hierfür wurde der 
Code aus Listing 10 abgeändert und erweitert. Zuerst wird eine CSV-Datei erstellt 
und die Spaltennamen definiert. Anschließend wird das Vorgehen bei einem neuen 
Tweet vorgegeben: Ein Writer soll die Daten im CSV-Format in die vorher ange- 
gebene Output-Datei schreiben und einzelne Werte mit einem Semikolon trennen. 
Zudem definiert der Parameter dialect=“excel“ eine Formatierung, die ein spä- 
teres Öffnen und Interpretieren durch Excel erlaubt. Mit dieser Option legt das 
Skript alle für die Dateistruktur relevanten Parameter automatisch fest. Schließlich 
erfolgt die Auswahl einzelner Entities, die aus dem JSON-Code extrahiert werden. 
Der Tweet-Inhalt wird zudem in das weit verbreitete Format UTF-8 kodiert, wel- 
ches sich zur Darstellung sprachspezifischer Zeichen (z.B. chinesischer Zeichen 
oder Umlaute) eignet. Schließlich hängt das Skript die Daten zeilenweise an das 
CSV-Dokument an. Ein Zähler erzeugt nach jeweils 1.000 Dokument-Zeilen eine 
neue Datei. 
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Listing 11: Export gesammelter Tweets in Semikolon-getrennte CSV-Dateien 


| 


class tweepylistener (tweepy.StreamListener): 


def _ init (self, api = None, prefix = "apple"): 

[...] 

# Definiere Zieldatei für Tweet-Daten 

self.output = open ("<Datei-Pfad>" + prefix + "." + 
time.strftime ("SY%m%d-SHSMSS") + 
YW GS; "w") 

# Schreibe Spaltennamen für CSV-Datei 

self.output.write ("Tweet; Zeit; Txt; User; UID;Name"+"\n") 


def on_data(self, data): 
ba». 
def on_status (self, status): 
writer = csv.writer(self.output, delimiter=";", 
dialect="excel") 
# Definier inzelne Tweet-Entities 
t id = json.loads (status) ["id"] 
t_tme = json.loads (status) ["created_at"] 
t_txt = json.loads (status) ["text"] .encode ("utf-8") 
t_uid = json.loads (status) ["user"] ["id"] 
t_usr = json.loads (status) ["user"] ["screen name"] 
# Fülle Zeile mit den Werten 
writer.writerow([t id, t tme, t txt, t uid, t usr]) 
self.counter += 1 
if self.counter >= 1000: 
self.output.close() 
self.output = open ("<Datei-Pfad>" + self.prefix + "." + 
time.strftime("SY%m%d-SHSM%S") + 
"csv" 2 "w") 


self.counter = 0 
sys.stdout.write(time.strftime("SYSm%d-SHSM%S") + 
">> Neue Datei erstellt" + "\n") 


return 


| 
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4.2.1.2 Bewertung der Speicherung in Text-Dateien 


Zusammenfassend ist der Speicheransatz tiber Textdateien ein geeignetes Mittel, 
um schnell und ohne größeren Aufwand eine kleine bis mittlere Datenmenge zu 
speichern. Da Python bereits eine JSON- und CSV-Funktionalität integriert hat, 
sind keine zusätzlichen Installationen notwendig. Der eigentliche Speicher-Pro- 
zess ist kurz und erlaubt eine direkte Einflussnahme auf die Verarbeitung der Da- 
ten bis zum Schreibbefehl: So können einzelne Datenfragmente extrahiert oder 
umstrukturiert werden. Die Methode ermöglicht zudem die Wahl eines gewünsch- 
ten Endformats: Der Export in das gängige CSV- oder TXT-Format erlaubt hier 
nicht nur ein direktes Bearbeiten, Suchen, Extrahieren oder Einfügen von Datens- 
ätzen in der Datei, sondern auch eine schnelle Weitergabe von Daten an andere 
Personen. Zusätzlich kann die Dateigröße mit der Festlegung der Größe von Da- 
tensätzen kontrolliert werden. So können auch Dateien in kleinerem Umfang er- 
zeugt werden, um sie zum Beispiel per E-Mail oder auf einem USB-Stick weiter- 
zugeben. Die einfache und offene Dateistruktur mit einer oder mehreren Dateien 
im CSV-, JSON- oder TXT-Format erlaubt das direkte Lesen und Bearbeiten ein- 
zelner Datensätze. Aufgrund der klaren Struktur (jede Textzeile enthält alle Infor- 
mationen zu einem Tweet) erhält man schnell einen guten Überblick über den Da- 
tenbestand. Letztlich ermöglichen fertige Textdateien auch einen schnellen Import 
in Statistik-Programme, wie SPSS oder Stata, die Informationen direkt aus CSV- 
oder JSON-Dateien auslesen können. 

Jedoch eignet sich diese Methode nicht für Erhebungen mit sehr großem Da- 
tenumfang und/oder langer Dauer. Hier würden, je nach Wahl des counter-Para- 
meters, wenige sehr große oder viele kleine Dateien entstehen. Zu große Dateien 
können unter Umständen nicht von allen Programmen eingelesen werden: So ver- 
arbeitet Microsoft Excel nur CSVs mit maximal etwa 65.000 Zeilen, Microsoft 
Access nur Daten bis zu 2 Gigabyte. Sehr große Text-Dateien mit mehreren Giga- 
byte an Informationen benötigen zudem leistungsfähige Rechner mit ausreichend 
großem Arbeitsspeicher (optimal sind 16 GB und mehr). Zu kleine Dateien führen 
mit zunehmender Dateizahl wiederum zu einer unübersichtlichen Dateilandschaft. 
Zudem stellt sich die Frage, wie die in den Dateien enthaltenen Informationen ver- 
knüpft und verarbeitet werden sollen: Einzelne Auswertungen je Datei oder ag- 
gregierte Auswertungen über alle Dateien? Für umfassende Analysen müssten alle 
Einzeldateien zunächst nachträglich zusammengefügt werden. 

Ein großer Nachteil von Textdateien ist die mangelnde Zugriffsmöglichkeit 
auf die Daten. Während der Erhebung ist die momentan beschriebene Datei für 
Änderungen gesperrt, sodass beispielsweise nicht die ID des zuletzt hinzugefügten 
Tweets ausgelesen oder die Zuverlässigkeit des Programms überprüft werden 
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kann. Nach Abschluss des Schreibprozesses besteht keine Möglichkeit für einen 
simultanen Zugriff auf die Daten durch mehrere Personen. Zudem kann die zu- 
greifende Person nur einen Prozess (Suchen, Kopieren, Überschreiben etc.) gleich- 
zeitig durchführen. Funktionen einer komplexeren Datenverwaltung, wie ein Um- 
strukturieren, Aggregieren oder Filtern von Daten ist, wenn überhaupt, nur einge- 
schränkt möglich. Hierfür eignen sich besonders Datenbanksysteme, die das 
nächste Kapitel betrachtet. 


42.2  Datenbank-Systeme 


Für die Speicherung von Tweets stehen grundsätzlich alle Arten von Datenbanken 
zur Verfügung. Diese untergliedern sich in mehrere Datenbanksysteme, wie unter 
anderem in hierarchische, relationale und NoSQL-Datenbanken, und unterschei- 
den sich teils grundlegend in ihrer Datenstruktur (siehe Abbildung 10). 


Tweet1 Tweet1 ——_key 
7 I ID User 
_key Screen_Name 
User ID $ 
a 
| ID | Screen_Name Text 
Hierarchisches DB-System Relationales DB-System 
Tweet1 | Tweet2 
ID ID 
User Text 
ID User 
Screen-Name Screen-Name 
Text ID 
URL 


Dokumentorientiertes NoSQL-DB-System 


Abbildung 10: Vergleich mehrerer Datenbank-Systeme. Eigene Darstellung. 
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Bei hierarchischen DB-Systemen, der ältesten Datenbank-Architektur, sind alle 
Datensätze (Records) über eine Baumstruktur mit über- und untergeordneten Wer- 
ten verbunden. Die Verknüpfung von Daten basiert auf Eltern-Kind-Beziehungen. 
Bei den sehr weit verbreiteten relationalen Datenbanksystemen (RDBMS), die 
häufig mit dem Begriff SOL zusammengefasst werden, sind Daten in der Regel 
über mehrere Tabellen verteilt und anhand von Schlüsseln miteinander verknüpft. 
So besteht ein Record unter Umständen aus mehreren Einträgen in verschiedenen 
Tabellen, wobei ein Eintrag üblicherweise aus einer Tabellenzeile (Tupel) mit 
mehreren Spalten (Attributen) besteht. Ein für jeden Record einmaliger Schlüssel 
stellt schließlich die Verbindung zwischen den einzelnen Tupeln dar. Vor der Da- 
teneinspeisung in eine SQL-Datenbank muss zunächst jeder Record geparsed wer- 
den, um Daten in eine verwertbare Struktur und Formatierung zu überführen (Tu- 
gores & Colet, 2013, S. 21). Dieser Schritt wird bei einer größeren Datenmenge 
zeit- und rechenintensiv, weshalb andere Datenbank-Architekturen, wie NoSOL, 
unter Umständen eine bessere Eignung für das Sammeln großer Datenmengen aus 
dem Social Web haben. 

NoSQL-Systeme („not only SQL“) erweitern die Funktionsweise von 
RDBMSs um mehrere Datenstruktur-Konzepte, auf denen die Daten verteilt und 
verknüpft sein können. Die wichtigsten Vertreter davon sind: Key-Value- und 
Graphen-Datenbanken sowie spaltenorientierte und dokumentorientierte Daten- 
banken. Key-Value-Datenbanken verwalten Tupel, die aus einem Schlüssel und 
dem dazu gehörenden Wert bestehen. Graphen-Datenbanken verknüpfen Datens- 
ätze über Knoten und Kanten. Spaltenorientierte Datenbanken (auch Wide Co- 
lumn Stores) haben, im Gegensatz zu RDBMS, eine dynamische Spaltenzahl. Es 
müssen also für einzelne Datenätze nicht alle Spalten definiert sein. Dokumentori- 
entierte Datenbanken bündeln und speichern einzelne Datensätze in Dokumenten. 
Dokumente bestehen aus einer geordneten Liste von Key-Value-Paaren, wobei der 
Daten-Umfang dynamisch ist. (Trelle, 2014, S. 3) 

Relationale Datenbanksysteme sind aufgrund ihrer Verbreitung und Funkti- 
onsfülle ideal für eine Vielzahl an Problemen. Bei der Wahl des Systems für die 
Sammlung großer Datensätze aus dem Internet sollten jedoch vor allem die jewei- 
ligen Eigenschaften hinsichtlich Datenstruktur und Geschwindigkeit berücksich- 
tigt werden. Durch das Web 2.0 gab es drastische Änderungen bei den Anforde- 
rungen an Datenbanksystemen: Sehr große Datenmengen sollen mit einem einfa- 
chen Schema bei geringer Datenkonsistenz und kurzen Laufzeiten abgespeichert 
werden (Trelle, 2014, S. 2). Zudem sollte die Möglichkeit bestehen, Speichersys- 
teme problemlos zu erweitern (Skalierung). 
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Vergleicht man die oben genannten Architekturen, wird schnell die hervorragende 
Eignung von dokumentorientierten NoSQL-Systemen für die Sammlung von 
Twitter-Daten ersichtlich. NoSQL-Systeme erlauben eine horizontale Skalierung 
—im Lauf des Sammelprozesses können problemlos weitere Server zur Erweite- 
rung des Speicherplatzes hinzugefiigt werden (Chodorow, 2013, S. 4). Dies ist 
hilfreich, da eine Schätzung des erwarteten Datenvolumens (im Vergleich zu Be- 
fragungen) sehr schwer ist. 

Im Vergleich zu relationalen Datenbanken mit einer Verteilung von Datenbün- 
deln auf mehrere Tabellen bildet in dokumentorientierten Datenbanken ein Doku- 
ment genau einen Tweet-Record ab, der die von der Twitter-API übermittelten 
Key-Value-Paare und Arrays enthält. Somit entfallen Querverweise zu anderen 
Teilen eines Datensatzes und damit zusätzliche Datenbankabfragen. Dies be- 
schleunigt den Abfrageprozess enorm und minimiert die Systemauslastung. 
Tugores und Colet (2013) verglichen die Schreibleistung des NoSQL-Systems 
MongoDB mit MySQL und erkannten bei ersterem eine deutlich höhere Verarbei- 
tungsgeschwindigkeit bei geringerem Leistungsbedarf. 

Die Datenstruktur von NoSQL-Systemen ist zudem eine abgewandelte Ver- 
sion des JSON-Formates, welches Twitter bei der Datenübermittlung nutzt. Do- 
kumentorientierte Datenbanksysteme haben eine geringe Konsistenz-Anforderung 
an Daten: Datensätze können in ihrem Umfang und Aufbau variieren. Demgegen- 
über müssen bei SQL-Systemen Daten-Records einem vorher definierten Schema 
entsprechen. Verschachtelte Daten aus Arrays müssen in separate Tabellen ge- 
schrieben werden, die wiederum mit einem Schlüssel verknüpft sind. Während bei 
Document Stores einzelne Records schnell und einfach identifiziert und exportiert 
werden können, müssen diese bei SQL-Datenbanken zuerst anhand der Verknüp- 
fungen zusammengefügt werden. 

Aufgrund der guten Eignung von No-SQL-Systemen für die Speicherung gro- 
Ber Mengen von Internet-Daten verwendet diese Arbeit das dokumentorientierte 
Datenbank-System MongoDB, welches das folgende Kapitel kurz vorstellt. 


4.2.2.1 MongoDB 


MongoDB wurde 2007 entwickelt und wird seitdem als Open Source System an- 
geboten. Das Datenbank-System besteht in seiner einfachsten Form aus einem 
Server (Host), der die Daten speichert und verwaltet, sowie einem oder mehreren 
Clients, die Daten in die Datenbank einspeisen oder abrufen. Das System ist ska- 
lierbar, sodass zu einem späteren Zeitpunkt weitere Hosts und Clients hinzugefügt 
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werden können. Eine Benutzerverwaltung steuert den Zugriff und die Berechti- 
gungen einzelner Nutzer. 

MongoDB strukturiert Daten anhand von Objekten, die in Collections gesam- 
melt werden. Eine Collection ist eine Sammlung von Objekten, bei der, im Gegen- 
satz zu SQL-Tabellen, eine Schemafreiheit besteht. Es wird also kein festes 
Schema mit Namen, Typen und Reihenfolge für einzelne Felder vorgegeben, son- 
dern Daten relativ unstrukturiert gespeichert. Mehrere Collections werden wiede- 
rum in einer Datenbank gebündelt. Der Schreibzugriff auf Collections beziehungs- 
weise Datenbanken ist dabei nicht auf einen Nutzer beschränkt, wie das bei Text- 
Dateien der Fall ist. Dadurch ist es möglich, dass mehrere Prozesse parallel Twit- 
ter-Daten sammeln und in verschiedene Collections speichern. Technisch besteht 
zudem die Möglichkeit, in einem Abfrage-Prozess über eine Weiche spezifische 
Tweets, z.B. anhand eines Schlagwortes, auf bestimmte Collections zu verteilen. 
MongoDB beinhaltet außerdem mehrere Funktionen zum Filtern, Sortieren, Um- 
strukturieren, Importieren und Exportieren sowie grundlegende Möglichkeiten 
zum Analysieren von Daten. 

Vor dem Speichern in MongoDB muss die Datenbank zuerst installiert und 
eingerichtet werden. Eine Trennung von Datenbank-Server und Client ist dabei 
sinnvoll”. Des Weiteren empfiehlt sich das Anlegen mehrerer Nutzer, die entwe- 
der Zugriff auf die Verwaltungsoptionen oder Lese-/Schreibzugriff auf bestimmte 
Datenbanken haben. Das gewährleistet nicht nur eine allgemeine Sicherheit der 
Daten vor Fremdzugriff, sondern verhindert zusätzlich, dass Prozesse versehent- 
lich (bei falscher Angaben des Collection-Parameters) Daten in eine falsche Coll- 
ection schreiben. Zudem ist es ratsam, das Datenbankprogramm als Dienst einzu- 
richten, der bei Bedarf automatisch den Server-Prozess startet. 

Sobald der Datenbank-Server eingerichtet ist, kann der Zugriff auf MongoDB 
von jedem PC erfolgen, der einen MongoDB-Client installiert hat. Grundsätzlich 
besteht die Möglichkeit, per Kommandozeile die Datenbank zu verwalten, Daten 
zu lesen, zu sortieren und filtern. Zusätzlich gibt es eine Vielzahl leicht bedienba- 
rer Management-Systeme mit grafischen Benutzeroberflächen. Einige sind dabei 
bei eingeschränktem Funktionsumfang kostenlos verfügbar, wie beispielsweise 


» Für eine Gewährleistung von Datensicherheit, Datenschutz und Performance empfiehlt sich immer 
eine Trennung von Datenbank und Nutzer. 
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Mongo Management Studio” (siehe Abbildung 11), Mongo VUE * oder 3T Mon- 
goChef?. Uber diese Systeme können gängige Prozesse, wie der Import oder Ex- 
port, sowie die Suche oder das Filtern von Daten einfach ausgeführt werden. 


Mongo Management Studio Community Edition -0 EZ 


E tzt auf Mongo M t Studio Professional aktuali aa 
Er a lor o lanagement jio Professional al 7 f & EJ o oO 


Community Edition von Mongo Management Studi Mongo Management Studio Professional fir mehr 


Abbildung 11: Benutzeroberflache des Mongo Management Studio. 


Für eine Verbindung per Kommandozeile muss zuerst im Shell-Fenster der Instal- 
lationsordner von MongoDB aufgerufen werden, beziehungsweise dessen Unter- 
verzeichnis /bin, in dem sich die Startdateien befinden. Zum Start werden weitere 
Parameter, wie die IP-Adresse des Datenbank-Servers, der Port und Zugangsdaten 
angegeben. Mit Hilfe der Befehle show dbs und show collections können 
Datenbanken und — nach Selektion per use-Befehl — die jeweiligen Collections 
angezeigt werden. 

Der Code aus Listing 12 zeigt das übliche Vorgehen zum Aufrufen einer Col- 
lection. Bei Verbindung mit der Datenbank findet eine Autorisierung (hier mit ei- 
nem Administrator-Konto) statt. Nach einer Auflistung der Datenbanken und der 
Auswahl der Datenbank tweepy, werden deren Collections abgerufen. In diesem 
Fall soll zudem die Twitter-ID des zuletzt gespeicherten Tweets angezeigt werden. 


3 http://www.litixsoft.de/mms/ 
24 http://www.mongovue.com/ 
25 http://3t.io/mongochef/ 
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Dabei werden mehrere Abfrage-Operatoren miteinander kombiniert: find, limit 
und sort. Die Tweet-ID ist im Schliissel id_ str hinterlegt. Da MongoDB jedem 
Datenbank-Objekt nochmals eine eigene ID zuweist (Feld ,, ID“), soll diese bei 
der Ausgabe ausgeblendet werden, um Verwechslungen zu vermeiden. 

Die zweite geschweifte Klammer des Operators find definiert die Ausgabe 
der Felder. Um nur einen Datensatz zu erhalten, wird ein Limit von | vorgegeben. 
Zudem erfolgt eine absteigende Sortierung anhand der Objekt-ID, um den neues- 
ten Tweet (mit der höchsten ID) zu erhalten. Listing 12 stellt nochmals alle vor- 
gestellten Befehle und deren Ergebnisse dar. 


Listing 12: Einfache Datenabfrage bei MongoDB 


C:\<Pfad>\bin>mongo -host <IP-Adresse> 
MongoDB shell version: 2.6.7 

connecting to: <IP-Adresse>:<Port>/mongo 
> use admin 

switched to db admin 

> db.auth ("<DB-Benutzer>", "<DB-Passwort>") 


1 

> show dbs 

admin 0.078GB 
local 0.078GB 
tweepy 0. 953GB 


> use tweepy 

switched to db tweepy 

> show collections 

chg 

merkel 

system. indexes 

> db.merkel.find({},{id_str: 1, _id: 
0}).limit (1) .sort({$ id:-1}) 

{ "id_str" : "565872318040514560" } 
> 


Diese Methode ist die schnellste Möglichkeit zur Abfrage spezifischer Daten bei 
MongoDB und sollte, wenn möglich, immer auf diese Weise angewendet werden. 
Ein Sortieren der Daten über Verwaltungssoftware wie Mongo Management Stu- 
dio benötigt bei großem Datenumfang sehr viel Arbeitsspeicher. Ist nicht genü- 
gend Arbeitsspeicher vorhanden, bricht die Operation mit einer Fehlermeldung ab. 
Ein Grund für den erhöhten Speicher-Bedarf ist die Art des Such-Prozesses: Die 
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grafische Benutzeroberfläche muss die sortierten Tweets auch gleich am Bild- 
schirm anzeigen, weshalb immer die kompletten Objektdaten (also alle Meta-Da- 
ten) verarbeitet werden miissen. Der Befehl tiber das Shell-Fenster beschrankt die 
Suche bereits vorher auf das Feld id_ str. Jedoch besteht auch bei vielen Verwal- 
tungssystemen die Möglichkeit, Such-, Filter- und Sortierbefehle in ein Abfrage- 
feld einzugeben, sodass nicht zwingend ein Zugriff per Shell erforderlich ist. 

MongoDB erlaubt mit ähnlich strukturierten Befehlen auch die Selektion, Ag- 
gregation bezichungsweise Restrukturierung von Daten. Diese Funktionen be- 
trachtet Kapitel 4.3.2 genauer. Das folgende Beispiel skizziert den Ablauf eines 
Speicherprozesses. 


4.2.2.2 Anwendungsbeispiel: Speichern von Tweets in MongoDB 


Nachdem bereits eine Daten-Abfrage auf dem MongoDB-Server getätigt wurde, 
zeigt dieses Kapitel die Abwandlung des bestehenden Skriptes aus Listing 10 zum 
Speichern von Tweets. Für Python gibt es ein Programmpaket namens pymongo, 
das den Datenverkehr über die MongoDB Schnittstelle verwaltet. Listing 13 stellt 
die übliche Konfiguration der Datenbankverbindung dar. Zuerst werden die IP- 
Adresse des Datenbank-Servers sowie, wenn eingerichtet, Benutzername und 
Passwort angegeben. Zusätzlich folgt der Name der gewünschten Datenbank. Bei 
Verbindungsproblemen oder fehlerhaften Anmeldedaten erscheint eine entspre- 
chende Fehlermeldung und das Skript beendet die Verbindung zu MongoDB. 

Schließlich wird das Vorgehen bei einem neuen Status definiert. In diesem Fall 
schreibt das Skript jeden Tweet, der über die Streaming API übermittelt wird, di- 
rekt in die Datenbank. Möglich wäre aber auch eine vorherige Definition des Da- 
tenumfangs, sodass der Insert-Befehl nur bestimmte Werte (wie Name, Tweet-ID 
und Datum) umfasst. Da außerdem die Möglichkeit besteht, verschiedene Werte 
in unterschiedliche Collections zu schreiben, ist bei jedem Insert die Angabe einer 
Ziel-Collection erforderlich. Der Parameter safe=True stellt sicher, dass die Da- 
tenbank bei jedem Schreibprozess auf eine Reaktion, genauer gesagt auf die Be- 
stätigung einer korrekten Ausführung des Speicherprozesses, wartet. Dies verhin- 
dert einen Datenverlust durch unvollständige Schreibbefehle (bei Verbindungs- 
problemen oder Überlastung). Bei Fehlern gibt das Skript eine Fehlermeldung aus 
und unterbricht die Verbindung. 
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Listing 13: Auszug eines Prozesses zum Speichern von Tweets in MongoDB 


import pymongo 
Lesl 
class tweepylistener (tweepy.StreamListener): 
def _ init (self, api = None): 
self.api = api or API() 
super (tweepy.StreamListener, self). init  () 


try: 
connection = pymongo.MongoClient ("<IP-Adresse>") 
connection.tweepy.authenticate ("<DB-Benutzer>", 
"<Passwort>") 
print "Verbindung zu MongoDB erfolgreich" 
self.db = connection .<DB-Name> 


except ConnectionFailure, e: 
sys.sterr.write("keine Verbindung möglich: %s" % e) 
sys.exit (l)connection = pymongo.MongoClient ("<IP- \ 
Adresse>") 


[...] 


def on_status (self, status): 
try: 
self.db.<Collection-Name>.insert (json.loads (status), 
safe=True) 


4.2.3. Vergleich der Systeme zur Datenverwaltung 


Beide Arten der Datensicherung haben Vor- und Nachteile. Die Speicherung in 
Einzeldateien ist einfach auszuführen und bedarf keiner speziellen System-Konfi- 
guration. Die erzeugten Dateien sind direkt einlesbar und können ohne Umwand- 
lung weiterverarbeitet oder weitergegeben werden. Es bedarf keiner Installation 
weiterer Software. Jedoch wird die Dateistruktur gerade beim Sammeln großer 
Datenmengen schnell unübersichtlich, da große Datenmengen systembedingt auf 
mehrere Dateien verteilt werden müssen. Für eine vollständige Analyse müssten 
diese Datenfragmente vorher wieder zusammengefasst werden. Des Weiteren be- 
steht ein hohes Risiko des Datenverlustes: Es sind regelmäßige Backups der Da- 
teien nötig, welche aber nur bei bereits vollständig beschriebenen Dateien möglich 
sind. Sollte ein Systemfehler beim Schreibprozess auftreten, ist die momentan be- 
schriebene Datei unter Umständen verloren. Somit eignet sich das Speichern in 
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Einzeldateien eher fiir Ad-hoc-Analysen oder zum Testen der gewählten Abfrage- 
parameter der APIs. 

Datenbanksysteme haben dagegen spezielle Anforderungen an Hard- und Soft- 
ware. Das System muss zuerst installiert und konfiguriert werden, indem beispiels- 
weise Hosts und Clients, Benutzerkonten und Rechte eingerichtet werden. Dafür 
weist das System einen hohen Grad an Sicherheit hinsichtlich Zugriffsschutz und 
Datenbeständigkeit auf. Der Zugriff kann mithilfe von Benutzerrollen auf spezifi- 
sche Datenbanken eingeschrankt und der Datenbestand durch Replikation der Da- 
ten auf mehrere Server gewährleistet werden. Zudem gestatten professionelle Da- 
tenbanksysteme simultane Lese- und Schreibzugriffe, sodass gleichzeitig sowohl 
mehrere Sammelprozesse, als auch Ad-hoc-Analysen des bestehenden Datenma- 
terials möglich sind. Das Speichern in Datenbanken eignet sich aufgrund des er- 
höhten Einrichtungsaufwands eher für eine größere, langfristig durchgeführte Da- 
tensammlung. Tabelle 6 fasst die Vor- und Nachteile der beiden Alternativen 
nochmals zusammen. 


Tabelle 6: Vergleich der Möglichkeiten zur Datenspeicherung 


DOKUMENTORIENTIERTE 


TEXT-DATEIEN 


DATENBANKEN 
EIGENSCHAF- |e JSON-, TXT-, CSV-Format e BSON/JSON-codiert 
TEN e Record entspricht Textzeile e Record entspricht Dokument 
VORTEILE e Einfach & schnell anwendbar e Datensicherheit und Zugriffs- 
e Mit „Bordmitteln“ des Be- schutz 
triebssystems realisierbar e Gute Performance 
e Daten direkt einsehbar e Multi-User, Multi-Thread 
e Direkte Datenweitergabe mög- e Grundlegende Analyse- und 
lich Aggregations-Funktionen be- 


reits integriert 


NACHTEILE e Mangelnder Schutz vor Daten- e Installation und Konfiguration 


verlust 

Nur ein Lese- oder Schreibpro- 
zess gleichzeitig 

Bei großem Datenumfang un- 
übersichtliche Einzeldateistruk- 
tur 


zwingend notwendig 

Unter Umständen große Hard- 
ware-Anforderungen 
Programmierkenntnisse für 
Shell-Kommandos erforderlich 
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Die Wahl des Systems wird, wie bereits bei der Wahl der Sammelmethode, vom 
Zweck beziehungsweise der Absicht der Datenverwendung beeinflusst. Generell 
sind immer Datenbanken zu empfehlen, da diese hinsichtlich Sicherheit, Bestan- 
digkeit, Leistung und Verwaltung einfachen Textdateien überlegen sind. Für 
simple Zwecke genügen jedoch auch Einzeldateien. Zudem besteht bei allen gän- 
gigen Datenbanksystemen die Möglichkeit, manuell gesammelte Daten (beispiels- 
weise im CSV-, XML- oder XLS-Format) nachträglich zu importieren. 

Ein Vorteil von MongoDB liegt in der Möglichkeit, eine Strukturierung und 
grundlegende Analyse der Daten bereits mit systemeigenen Funktionen durchfüh- 
ren zu können. Auf diese Analysemöglichkeiten und andere Python-basierte Aus- 
wertungen geht das folgende Kapitel genauer ein. 


4.3 Methoden der Datenanalyse 


Nachdem bereits Ansätze zum Sammeln und Speichern von Twitter-Daten bespro- 
chen wurden, folgt nun eine Betrachtung der Möglichkeiten zur Analyse dieser 
Daten. Dieses Kapitel stellt dabei keinen Anspruch an Vollständigkeit, sondern 
dient zur Darstellung und Bewertung mehrerer, gängiger Analyseansätze und Me- 
thoden. Zuerst wird auf etwaige Probleme bei der Datenanalyse und deren Ursa- 
chen eingegangen sowie Ansätze zur Vermeidung und Behebung thematisiert. Da 
in dieser Arbeit auf dem Datenbanksystem MongoDB basiert, zeigt Kapitel 4.3.2 
zunächst die systemintegrierten Funktionen zur Datenverarbeitung und -analyse. 
Kapitel 4.3.3 befasst sich schließlich mit ausgewählten Methoden des Natural 
Language Processing (NLP) — der automatisierten Inhaltsanalyse der Computer- 
linguistik. Hierbei gilt zu beachten, dass dies nur eine kleine Auswahl gängiger 
Analyseverfahren ist, die spezifisch für das folgende Beispiel getroffen wurde. 

Der Vergleich der Methoden erfolgt anhand eines Beispiels — der Analyse von 
Tweets über den Franken-Tatort”®. Das Datenset umfasst dabei 37.556 vollstän- 
dige Tweet-Records (inklusive aller Meta-Daten, siehe Abbildung 6 weiter vorne), 
die ex post mit der Search API (Suchterm: „tatort‘‘) ermittelt wurden. Die Collec- 
tion tatort_tweets in der Datenbank tatort beinhaltet in ihrer urspriinglichen 
Form Tweets unterschiedlichster Sprachen und dadurch mit großer Wahrschein- 
lichkeit auch irrelevante Tweets. Dies entspricht der tiblichen Ausgangssituation 
bei Twitter-Analysen. Folglich empfiehlt sich in vielen Fallen ein vorgelagertes 
Bereinigen der Daten. 


26 „Der Himmel ist ein Platz auf Erden“, ARD, 12.04.2015, 20:15-21:45. Erfassung aller Tweets zwi- 
schen 05.04., 14:52, und 13.04., 15:34 Uhr. 
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4.3.1 Vorverarbeitung der Daten 


Nach der Datensammlung und vor der eigentlichen Analyse der gesammelten Da- 
ten müssen diese zuerst aufbereitet werden, indem sie beispielsweise normalisiert, 
sortiert, aggregiert, gefiltert und korrigiert werden (Abbildung 12 zeigt den typi- 
schen Ablauf der Datenanalyse). Besonders bei großen Datensets sind mehrere 
vorgelagerte Filter zur Verringerung des Datenumfangs sinnvoll. So können bei- 
spielsweise irrelevante Werte der Tweet-Records gelöscht werden. Besonders An- 
gaben über die grafische Gestaltung des Urheber-Accounts (Hintergrundbild, 
Farbe, etc.) sind für die meisten Auswertungen unbedeutend. Ebenso empfiehlt 
sich vor der Analyse das Aussondern anderer Sprachen oder Tweets außerhalb 
eines bestimmten Zeitraums. Die Filterung nach Sprache benötigt allerdings eine 
verlässliche Spracherkennung. Der Twitter-eigene Spracherkennungs-Dienst ist 
die momentan zuverlässigste Identifikations-Methode (Carter, Weerkamp & 
Tsagkias, 2013). Sofern jedoch Daten vor Einführung des Spracherkennungs-Al- 
gorithmus durch Twitter im März 2013 (Roomann-Kurrik, 2013) analysiert wer- 
den, bedarf es anderer Programme. 


% Planung 2 normalisieren Muster- % Interpretation 


erkennung 


Daten- Dokumentation 


o 
N 

: > 

filtern T 

sammlung < 


ergänzen Modellierung Auswertung 
Merkmals- 


generierung 


Klassifizierung 


3 
2 
© 
— 
© 
a 
— 
O 
> 


korrigieren 


transformieren Korrelation 


Vorverarbeitu 
Nachbearbeitu 


Datenauswahl 


> 


Abbildung 12: Prozess der Datenanalyse. In Anlehnung an Runkler (2000, S. 2). 


Neben dem Twitter-eigenen Algorithmus gibt es auch andere Dienste, wie 
Googles kostenpflichtige Translate API (Google Inc., 2015), oder Skripte, wie 
Langid für Python (Lui & Baldwin, 2012). Alle verfügbaren Werkzeuge können 
keine hundertprozentig (oder annähernd) verlässliche Spracherkennung gewähr- 
leisten (Lui & Baldwin, 2014). Die Merkmale der Twitter-Sprache (Dialekt, Neo- 
logismen usw.), besonders die Vermischung mehrerer Sprachen in einem Tweet, 
aber auch die sehr limitierte Textlänge und Häufung von Abkürzungen stellen hier 
ein großes Hindernis dar (Carter et al., 2013). Da diese Eigenheiten nicht beein- 
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flussbar sind, besteht in der Zukunft nur die Möglichkeit, intelligentere und zuver- 
lässigere (lernfähige) Algorithmen zu entwickeln. Momentane Lösungen bieten 
allerdings schon relativ verlässliche Ergebnisse. 

Ein großes Problem, nicht nur bei der Inhaltsanalyse, könnten Spam-Tweets 
darstellen (McCord & Chuah, 2011). Das Veröffentlichen vieler (identischer) 
Tweets durch mehrere Accounts in kurzer Zeit kann beispielsweise dazu genutzt 
werden, eigene Hashtags (etwa von Aktionen) in die Trending Topics zu bekom- 
men, um dadurch einfach eine größere Zielgruppe zu erreichen (Benevenuto, 
Magno, Rodrigues, & Almeida, 2010). Oftmals enthalten Spam-Tweets auch mo- 
mentan populäre — und themenfremde — Hashtags und einen Link zu einer Web- 
seite. Die Erkennung von Spam kann unter Umständen die Qualität des Datensat- 
zes entscheidend erhöhen. Laut einem Bericht von Twitter, Inc. an die New Yorker 
Börsenaufsicht SEC schätzt das Unternehmen den Anteil an Spam-Bots, also Ac- 
counts, die automatisiert Spam verschicken, auf etwa 5 Prozent der monatlich ak- 
tiven Accounts (United States Securities and Exchange Commission [SEC], 
2014). 

Wenn neben reinen Häufigkeitsauszählungen auch quantitative Inhaltsanaly- 
sen durchgeführt werden sollen, muss das Tweet-Datenset noch detaillierter vor- 
verarbeitet werden. Für eine Betrachtung des reinen Twitter-Textes, beispiels- 
weise zur Ermittlung der häufigsten Begriffe eines Datensets, erscheint das Filtern 
von Mentions, Hyperlinks und Retweets als sinnvoll. Zudem sollten hier Satzzei- 
chen und andere Sonderzeichen entfernt werden. Sofern eine Analyse nicht auf 
Satz-, sondern auf Wortebene erfolgt, empfiehlt sich der Ausschluss häufiger Be- 
griffe, wie Artikel, Konjunktionen oder Präpositionen aus dem Datensatz. Man 
spricht hier von Stoppwörtern. 

Eine Konvertierung in Kleinbuchstaben vereinfacht nicht nur eine spätere 
Lemmatisierung oder ein Stemming, sondern auch das Erkennen/Filtern von Be- 
griffen. So müssen nicht alle Kombinationen möglicher Groß- und Kleinschrei- 
bungen in Begriffskatalogen gespeichert werden. Des Weiteren ist eine Umwand- 
lung von Abkürzungen sinnvoll, da diese in der Internetsprache häufig vorkom- 
men — besonders aufgrund der Beschränkung auf 140 Zeichen pro Tweet erscheint 
dies bei Twitter als wahrscheinlich. Für diese speziellen Bedarfssituationen muss 
die Umwandlung allerdings anhand manuell erstellter Lexika erfolgen. Im Gegen- 
satz zu gängigeren Abkürzungen, wie „lol“ oder „ftw“, stellt die Konvertierung 
unkonventioneller Abkürzungen eine größere Herausforderung dar. Nutzerspezi- 
fische Sprache kann selbst durch ein Einlesen in themenspezifische Tweets nicht 
zwangsläufig erkannt werden. Sehr spezifische Abkürzungen oder falsch geschrie- 
bene Begriffe müssten manuell ersetzt und korrigiert werden. Zudem empfiehlt 
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sich eine Filterung und Korrektur nicht rein alphabetischer Begriffe (z.B. „wO0t“, 
„n8“). 

Neben Abkürzungen enthalten Tweets auch häufig Symbole, wie Emoticons, 
die bestimmte Emotionen ausdrücken. Zwar gibt es einen durch das Unicode Kon- 
sortium standardisierten Katalog von Emojis (Unicode, Inc., 2015), jedoch ver- 
weisen Park, Barash, Fink und Cha (2013) auf kulturelle und persönliche Unter- 
schiede in der Interpretation. Da Emoticons per Definition eine bedeutende Infor- 
mationsquelle für vermittelte Emotionen sind, sollten diese bei der semantischen 
Analyse berücksichtigt werden. Um Verzerrungen durch anders interpretierte 
Smileys zu reduzieren, ist womöglich eine Beschränkung der Analyse auf die gän- 
gigsten Symbole — wie beispielsweise :-) :-(-) :-P :D — am sinnvollsten. Dennoch 
kann es auch hier zu unterschiedlichen Interpretationen kommen, da beispielweise 
jeder Hersteller von Betriebssystemen für Smartphones eigene Grafiken verwen- 
det (siehe Tabelle 7). 

Hinzu kommt die Tatsache, dass Twitter mittlerweile ein eigenes Set an 
Twemojis zur Verfügung stellt, das die von den jeweils unterschiedlichen Betriebs- 
systemen verwendeten Icons in der Darstellung auf der Twitter-Webseite verein- 
heitlicht (Davidson, 2014). Das Beispiel unten zeigt zudem, dass die Gefahr be- 
steht, die ursprüngliche Aussage des Emojis (hier: Schläfrigkeit) falsch zu deuten. 
Eine mögliche Interpretation wäre in diesem Fall auch ein trotziges Spucken oder 
Weinen. 

Vorgelagerte Filter und Verarbeitungsschritte ermöglichen eine Reduktion des 
Datenumfangs und eine Verbesserung der Lesbarkeit von Texten. Zwar gehen 
dadurch möglicherweise Informationen verloren, dennoch kann die Aussagekraft 
des Inhalts durch Ausschluss irrelevanter Zeichen oder ganzer Text-Fragmente 
steigen. Zudem sinkt das Datenvolumen, was die Analyse beschleunigen kann. 
Vor der eigentlichen Analyse sollte deshalb immer eine Bereinigung erfolgen. 
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Tabelle 7: Unterschiede in der Darstellung von Emojis. Bildquelle: Unicode, 


Inc. (2015). 
HERSTELLER APPLE GOOGLE MICROSOFT TWITTER 
SYSTEM iOS und OS X Android Windows Twemoji 
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w v a —— 
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4.3.2 Verarbeitung und Analyse mit MongoDB 


MongoDB stellt für das sogenannte Preprocessing eine Vielzahl an Möglichkeiten 
zur Manipulation und Analyse von Daten zur Verfügung. Diese eignen sich jedoch 
eher zur allgemeinen Strukturierung der Daten, als für die Textmanipulation oder 
detailliertere Analysen. So können Datensätze gefiltert oder gruppiert werden, 
während eine inhaltliche Verarbeitung von Texten (z.B. Stoppwort-Filter, Toke- 
nisierung) nur auf Umwegen über andere Programme oder Skripte möglich ist. 
Ein wichtiges Toolkit für die Verarbeitung auf Datensatz-Ebene sind die Me- 
thoden zur Datenaggregation, welche drei wesentliche Funktionen beinhalten: Ab- 
fragemethoden zur Aggregation, das Aggregation Framework sowie das MapRe- 
duce-Verfahren. Die drei Methoden unterscheiden sich im Allgemeinen vor allem 
in ihrer Performance und ihrem Funktionsumfang. Während die Abfragemethoden 
einen geringen Funktionsumfang, aber eine hohe Leistung hinsichtlich Verarbei- 
tungsgeschwindigkeit vorweisen, bietet MapReduce eine sehr hohe Funktionalität 
(auch für Analysen) mit jedoch eingeschränkter Performance. Einen Mittelweg 
zwischen Leistung und Funktionalität geht das Aggregation Framework. 
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4.3.2.1 Abfragemethoden zur Aggregation 


MongoDB stellt mit mehreren Abfragemethoden eine Grundfunktionalitat zur Ag- 
gregation von Daten zur Verfügung. So können beispielsweise Häufigkeitsauszäh- 
lungen von (gruppierten) Werten bereits mit den internen Funktionen der Daten- 
bank durchgeführt werden. Da die Möglichkeiten zur Einschränkung der Suche 
über die REST APIs begrenzt sind, wurden im eingangs erwähnten Erhebungsfall 
auch Tweets mit dem Begriff Tatort erfasst, die deutlich vor dem Sendetermin 
lagen. Das Datenset besteht folglich aus Tweets zwischen dem 05.04. und 13.04. 
Für die Datenanalyse sollen zunächst alle Einträge vor dem 11.04. gefiltert wer- 
den. Um den Datenumfang anhand des Datums auf relevante Tweets zu begren- 
zen, muss das Feld created_at zunächst umformatiert werden. Twitter verwen- 
det das Unicode-Format, welches aber nicht direkt kompatibel mit den Filterope- 
ratoren von MongoDB ist. Listing 14 beinhaltet ein Skript zur Konvertierung der 
Zeitstempel in das Datetime-Format nach dem Standard ISO 8601 (International 
Organization for Standardization [ISO], 2015). 


Listing 14: Konvertierung des Datumsformats 


import pymongo, datetime 
from pymongo import MongoClient 


connection = pymongo.MongoClient ("<DB-IP>") 
connection.admin.authenticate ("<DB-Benutzer>","<Passwort>") 
db = connection.<DB-Name> 

collection = db.<Collection-Name> 

tweets = collection.find({}) 

for tweet in tweets: 


tweetdate = tweet[u'created at'] 
if(type( tweetdate ) == unicode): 
newdate = datetime.datetime.strptime (tweetdate, 
'Sa Sb $d $H:3M:%3S +0000 SY') 
pointer = tweet[u' id'] 


collection.update({' id': pointer}, 
{'Sset': {'created_at': newdate}}) 
else: 
skip=1 
pass 
print("Alle Daten konvertiert") 
if skip==1: 
print ("Mindestens 1 Datum wurde übersprungen") 
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Nach der Umwandlung des Datums besteht nun eine Filter-Möglichkeit nach Da- 
tum. Dadurch ergibt sich ein kleinerer Datensatz mit 20.310 Einträgen. Da der 
Tatort vornehmlich ein deutsches beziehungsweise deutschsprachiges Phänomen 
ist, interessieren vor allem Tweets auf Deutsch. Eine Sichtung des Materials ergab, 
dass manche Twitter-Nutzer momentan populäre Hashtags ohne thematischen Be- 
zug in ihre Nachrichten einbauen, um vermutlich eine größere Beachtung zu fin- 
den (Spam). Dies konnte man vor allem bei fremdsprachigen Tweets erkennen. 
Auch deshalb werden für diese Analyse nur deutschsprachige Tweets analysiert. 
Twitter stellt für die Textsprache das Entity iso_language_code zur Verfü- 
gung. Twitters eigener Spracherkennungs-Algorithmus erkennt anhand mehrerer 
Parameter automatisiert die Textsprache und trägt diese als Code in das Feld ein. 
Aktuelle Studien bescheinigen eine relativ hohe Zuverlässigkeit, wenngleich un- 
bereinigte Tweets eine nicht zu vernachlässigende Fehlerquote bei der Erkennung 
aufweisen (vgl. Kapitel 4.3.1). 


Listing 15: Abfragemethoden zur Aggregation in der MongoDB-Shell 


> db.tatort tweets.count () 
37556 
> db.tatort tweets.count ({ 
created at: { 
Sgte: ISODate ("2015-04-11T12:00:00.0002"), 
Slt: ISODate ("2015-04-13T12:00:00.0002") } 
saa F) 
20310 
> db.tatort tweets.find(f 
created at: { 
Sgte: ISODate ("2015-04-11T12:00:00.0002"), 
Slt: ISODate ("2015-04-13T12:00:00.0002")}, 


"metadata.iso language code" : "de" 
er Ser }).count () 
£8517 
> db.tatort_tweets.group ({ 
key: {"metadata.iso language code" : 1}, 
cond: { 


created at: { 
Sgte: ISODate ("2015-04-11T12:00:00.0002"), 
Slt: ISODate ("2015-04-13T12:00:00.0002") }}, 
initial: {count:0}, 
reduce: function(curr, result) { 
result.countt+; } 
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[ 

{ 
"metadata.iso language_code" : "de", 
"count" = 18517 

}, 

{ 
"metadata.iso language code" : "en", 
"count" : 739 

}, 


Listing 15 beginnt mit einer einfachen Auszählung aller Dokumente in einer Col- 
lection. Diese allgemeine Abfrage liefert einen erstmaligen Überblick der Tweet- 
Anzahl. Hierfür wurde der Count-Befehl verwendet und schließlich um einen 
Datumsfilter erweitert. Um Tweets des relevanten Zeitraums in deutscher Sprache 
zu erhalten, wird Count mit dem Filter Find ergänzt, der die Abfrage des ur- 
sprünglichen Befehls ersetzt. Der Datensatz beinhaltet demnach 18.517 Tweets in 
deutscher Sprache. Zudem besteht die Möglichkeit, Daten anhand eines Schlüssels 
zu gruppieren und zu zählen (hier die Textsprache). Der Group-Befehl kombi- 
niert dabei Count mit einem Zähler und Datumsgrenzen als Bedingung. 

Die Abfragen mittels Count und Group stellen zwei sehr einfache und 
schnelle Möglichkeiten zur Häufigkeitsanalyse. Diese Methoden geben jedoch nur 
(gezählte) Werte in der Kommandozeile aus und erlauben weder ein direktes Spei- 
chern der Ergebnisse in Collections, noch eine Restrukturierung der Daten. Zudem 
sind diese Methoden nur auf 20.000 Datensätze beschränkt und bei Datensets, die 
mittels Sharding auf mehrere Server verteilt sind, nicht anwendbar (Trelle, 2014, 
S. 200). Für diese Zwecke und für komplexere Abfragen eignet sich das Aggrega- 
tion Framework. 


4.3.2.2 Aggregation Framework 


Das Aggregation Framework wurde eingeführt, um die technische Lücke zwi- 
schen den schnellen aber einfach konzipierten Abfrage-Methoden und dem kom- 
plexen aber mächtigen MapReduce zu schließen. Das Framework ist in zwei Kom- 
plexe gegliedert: einer stufenweisen Pipeline, die Dokumente sequentiell verar- 
beitet, und Expressions, die die Dokumente innerhalb der Pipeline manipulieren 
(Chodorow, 2013, S. 127-130). Eine Aggregationspipeline besteht aus einer Kette 
mehrerer vordefinierter Prozeduren, die sequentiell auf die Dokumente angewen- 
det werden. So kann eine Vielzahl an Operationen mithilfe einer mehrstufigen 
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Pipeline verbunden werden. Die Pipeline leitet dabei die Daten von einer Prozess- 
stufe mit jeweils spezifischen Operationen zur nächsten weiter. Abbildung 13 
stellt den Ablauf der Aggregation schematisch dar. 


Expressions 
(z.B. cond, sum, toLower) 


mn I match —— >> group ee Output 


Stufe 1 Stufe 2 Stufe 3 Stufe n 


Abbildung 13: Schematische Darstellung einer Aggregation Pipeline. Eigene 
Darstellung. 


Die Manipulation an Dokumenten erfolgt innerhalb einer Stufe der Pipeline über 
Expressions. Diese Expressions reagieren dabei immer nur auf den momentanen 
Zustand der aktuell verarbeiteten Dokumente. Es können folglich keine zusätzli- 
chen Daten anderer Dokumente außerhalb der Pipeline hinzugefügt werden. Die 
möglichen Funktionen von Expressions gehen von einfachen Bedingungs-Ver- 
knüpfungen ($and, $or, ...) und Vergleichen ($eq, $gt, ...) über einfache ma- 
thematische Funktionen ($multiply, $add, ...) bis hin zur Manipulation von 
Strings ($toLower, $toUpper, ...). 

In Listing 16 wird zunächst ein einfacher aggregate-Befehl ausgeführt: Alle 
Tweets der Collection tatort_tweets sollen anhand der durch Twitter erkannten 
Textsprache iso_language_code gruppiert werden. Schließlich wird die An- 
zahl der Tweets je Sprache gezählt und in einer absteigend sortierten Liste ausge- 
geben. Bereits hier zeigen sich die Vorteile gegenüber den einfachen Abfrage-Me- 
thoden: Es ist gibt keine Limitierung der Datenmenge?’ und es besteht die Mög- 
lichkeit, Ergebnisse anhand von Werten zu sortieren. 

Der zweite aggregate-Befehl verdeutlicht das Konzept von Pipeline und Ex- 
pressions. Zuerst werden Tweets ausgewählt, die im gewünschten Zeitraum ver- 
öffentlicht wurden, und anhand der Sprache gruppiert. Daneben erfasst ein Zähler 
die Anzahl der Tweets je Sprache und errechnet die durchschnittliche Retweet- 
Zahl je Sprache. Die nächste Stufe sortiert die ermittelte Liste mit den Ergebnissen 
absteigend anhand der Gruppengröße (nach Sprache) und begrenzt das Ergebnis 


2?” Anmerkung: Mit zunehmender Größe der Collection steigt folglich auch die Dauer der Ausführung 
der Datenbank-Befehle. 
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auf 10 Einträge. Diese Top 10-Liste von Tweets und durchschnittlichen Retweets 
nach Sprache schreibt die letzte Stufe in die neue Collection top. Die nun dauer- 
haft gespeicherten Datensätze stehen so als Ausgangsmaterial für weitere Analy- 
sen zur Verfügung. Der find-Befehl gibt die Liste schließlich aus. 


Listing 16: Aggregation-Framework in MongoDB 


> db.tatort tweets.aggregate ( 

$group: { id: "Smetadata.iso language code", 
count: {$sum:1}}}, 

... {$sort: (Counti -1}}); 

{ "ad" 2 "de", "count" = 18517 } 


{ "id" : "en", "count" : 739 } 


> db.tatort tweets.aggregate ( 

$match : {"created_ at": 

... {Sgte: ISODate ("2015-04-11T12:00:00.0002"), 
... Slt: ISODate ("2015-04-13T12:00:00.0002")}}}, 
Sgroup : { 

. _id: "Smetadata.iso language code", 

. count: {$sum:1}, 

.avgRetweets: {Savg: "Sretweet_count"}}}, 
{Ssort: {count:-1}}, 

{Slimit: 10}, 

{Sout: "top"}); 


db.top.find() 

"id" : "de", "count" : 18517, "avgRetweets" 
.2377814980828425 } 

"id" : "en", "count" : 739, "avgRetweets" : 
.5940460081190798 } 

"id" : "und", "count" : 476, "avgRetweets" : 
.926470588235294 } 

"id" : "fr", "count" : 134, "avgRetweets" 
.1417910447761194 } 

id 


m Oo— N 090-097 V 


Dieses Beispiel zeigt, dass bereits in der Datenbank eine sinnvolle Selektion und 
Umstrukturierung von Twitter-Daten erfolgen kann. So besteht die Möglichkeit, 
Daten anhand von (errechneten) Werten zu vergleichen, zu gruppieren und sortie- 
ren sowie die Ergebnisse in eine separate Collection zu schreiben. Jedoch gibt es 
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auch hier, wie bei den Abfragemethoden technische Einschränkungen: Wenn 
group und sort-Befehle bereits zu Beginn der Pipeline eingesetzt werden, hangt 
die Zahl der maximal analysierbaren Tweets von der Verfügbarkeit des Arbeits- 
speichers ab. Fiir kumulative Operationen wie die Gruppierung oder Sortierung 
von Daten muss zuerst das komplette Datenset eingelesen werden. Werden dabei 
mehr als 10% des verfügbaren Arbeitsspeichers belegt, bricht der aggregate- 
Prozess ab. 

Neben einer guten Rechnerausstattung ist es daher sinnvoll, Daten in frühen 
Stufen der Pipeline zu filtern. Beispielsweise können einzelne Werte extrahiert 
und in eine neue Collection geschrieben werden. Diese Collection kann dann wie- 
derum als Ausgangspunkt für weitere Analysen im Aggregation Framework die- 
nen, oder — bei Export der Daten — für andere Analyse-Programme. Zudem muss 
beachtet werden, dass der Algorithmus zur Spracherkennung von Twitter nicht 
immer zuverlässig arbeitet und auch nicht alle Tweets anhand ihrer Sprache klas- 
sifizieren kann. In Listing 16 befanden sich beispielsweise 467 undefinierbare 
Tweets (,, id“: „und“). 

Neben dem Aggregation-Framework, das wohl fiir die meisten Anwendungs- 
fälle genügt, unterstützt MongoDB noch eine weitere Technik zur Datenaggrega- 
tion, die plattformübergreifend bei sehr großen und stetig wachsenden Datensets 
angewendet wird: MapReduce. 


4.3.2.3 MapReduce 


MapReduce ist eine von Google, Inc. (Dean & Ghemawat, 2008) konzipierte 
Technik zum kontinuierlichen Verarbeiten sehr großer Datensets. Da sie eine sehr 
hohe Leistungsfähigkeit hat, aber eher kompliziert und programmierintensiv in der 
Einrichtung ist, eignet sie sich vor allem für Big Data, also sehr großen und stetig 
wachsenden Datenmengen. Insgesamt ist die Verarbeitungsgeschwindigkeit im 
Vergleich zum Aggregation Framework jedoch langsamer, was auch darauf zu- 
rückzuführen ist, dass die Verarbeitung des Aggregation Frameworks vor allem 
im (schnellen) Arbeitsspeicher stattfindet, während MapReduce die Daten direkt 
auf der DB verarbeitet und die einzelnen Dokumente während der Bearbeitung 
(für Millisekunden) sperrt (Trelle, 2014, S. 231). Dafür können bei MapReduce 
deutlich mehr Daten verarbeitet werden. Der Algorithmus gliedert sich in drei Pha- 
sen: Map, Group/Sort und Reduce. Diese müssen zuvor einzeln mittels Javascript 
programmiert werden. 
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Jeder MapReduce-Prozess beginnt mit einer Map-Phase. Hier werden aus allen 
verfiigbaren Dokumenten, die auf der Datenbank verteilt sind, vorher definierte 
Teilinformationen extrahiert. Das könnten alle Wörter eines Textes sein oder ein 
Zahlenwert eines bestimmten Schlüssels (wie die Anzahl der Follower eines Twit- 
ter-Nutzers). Danach folgt eine Phase des Gruppierens und Sortierens. Die extra- 
hierten Informationen werden hier sortiert und in Bündel identischer Daten aggre- 
giert. In der Reduce-Phase erfolgt schließlich die Reduktion der Listen-Einträge 
zu einem Element. (Chodorow, 2013, S. 140) 

Zum besseren Verständnis zeigt das folgende, einfache Beispiel, den Ablauf 
des Prozesses, wie ihn Abbildung 14 vereinfacht darstellt. Ziel ist die Ermittlung 
der 10 häufigsten Wörter aller Tweets zum Franken-Tatort anhand der Word 
Count Methode. Das Zählen der Worthäufigkeit in Texten ist eine elementare Me- 
thode der Computerlinguistik. 

Der Input für MapReduce umfasst auch in diesem Fall vollständige Tweet- 
Datensätze. Folglich muss der für die Analyse relevante Tweet-Text erst aus den 
Datensätzen extrahiert werden. Diese Erfassung aller Inhalte des Feldes text fin- 
det im ersten Schritt, der Map-Phase, statt. Dabei iteriert das Javascript in Listing 
17 jeden Text und unterteilt diesen anhand von Wortgrenzen (hier: Leerzeichen) 
in einzelne Wörter. Danach folgt eine Bereinigung der Ergebnisse um Leerzei- 
chen, Sonderzeichen und Füllwörter sowie ein Konvertieren in Kleinbuchstaben. 
Mit der Umwandlung in Kleinbuchstaben wird sichergestellt, dass Begriffe mit 
unterschiedlichen Schreibweisen (wie TatOrt, tatort, Tatort) als identische Werte 
erkannt werden können. Es entstehen nun Key-Value-Paare, in denen jedes Wort 
einzeln aufgelistet wird und die Häufigkeit 1 erhält, also beispielsweise Tatort, 
1. Dabei gilt zu beachten, dass auch Wörter, die im selben Dokument mehrfach 
vorkommen, als einzelne KeyValue-Paare aufgelistet werden. Diese Paare tauchen 
in der Liste dementsprechend mehrfach als Dubletten auf und werden erst in der 
Reduce-Phase zusammengeführt. 

In Phase 2 findet ein Sortieren und Gruppieren der Key-Value-Paare statt. Hier 
werden gleiche Worte dem gleichen Reducer zugewiesen um eine globale Aggre- 
gation der Wort-Häufigkeit zu ermöglichen. In diesem Beispiel erfolgen eine al- 
phabetische Sortierung und schließlich eine Zuordnung jeweils gleicher Worte zu 
einem Reducer. In der anschließenden Reduce-Phase iteriert jeder einzelne Re- 
ducer über die ihm zugewiesene Wortmenge und ermittelt so die Summe der Be- 
griffe. Aus (Tatort, 1) und(Tatort, 1) wird schließlich (Tatort, 2). Am Ende 
des Prozesses schreiben alle Reducer ihre Ergebnisse als aggregierte Key-Value- 
Paare in die Ziel-Collection. 
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Abbildung 14: MapReduce-Prozess anhand der Word Count Methode. Eigene 


Darstellung. 
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Listing 17: JavaScript zur Definition der Map- und Reduce-Funktion bei Word- 
Count 


// Map-Funktion 
map = function() { 
if (!this.text) { 
return; 
} 
this.text.split(' ').£forEach (function (word) { 
word = word.replace (/\s/g, ""); 
word = word.replace (/[\.,- \/#!$S\*&\*;:{}@=\-_"°~()]/g, 


W ") is 
word = word.replace (/der|die|das|ich|duler|sie| 
es|wir|ihr|ihnen|dir|du|dem|den| 
ist|ein|eine|einer|eines|sein|mein| 
dein|im|um|auch|ja|nein|kein| 
immer|noch|und|warum|rt/gi, "") 
if(word !="") { 
emit (word.toLowerCase(), 1) 
} 


}); 
}; 


// Reduce-Funktion 
reduce = function (key, values) { 
return values.length; 


}; 


Der eigentliche MapReduce-Prozess wird über die MongoDB-Shell gestartet und 
bedient sich einer übersichtlichen Syntax. Sie beinhaltet die Namen der Map- und 
Reduce-Funktion sowie weitere Angaben über die Ausgabe der Ergebnisse. Wenn 
der jeweilige Map- und Reduce-Code bereits vorher in das Kommandofenster ko- 
piert wurde, reicht ein einfacher Verweis auf den jeweiligen Funktionsnamen, um 
diesen einzubinden. Möglich wäre aber auch eine absolute oder relative Pfadan- 
gabe zum lokal gespeicherten JavaScript. 

In diesem Fall speichern die Reducer ihre Ergebnisse in der Collection wor- 
dcount. Zuvor sortiert ein Filter alle Tweets aus, die nicht anhand der automati- 
schen Spracherkennung von Twitter als deutschsprachig identifiziert wurden. Da 
der query -Filter vor dem Mapping einsetzt, reduziert dies unter Umständen auch 
die Bearbeitungszeit des Prozesses. In der Syntax können zudem weitere Verar- 
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beitungsschritte, wie das Errechnen von Kennzahlen (z.B. die Haufigkeit des Wor- 
tes innerhalb eines Satzes), initiiert werden. Auch besteht die Méglichkeit zum 
Vorsortieren und Begrenzen des Inputs für die Mapper. 


Listing 18: Shell-Befehl zur Initiierung des MapReduce-Prozesses, nachdem die 
Map- und Reduce-Funktion geladen wurde 


db.tatort _tweets.mapReduce ( 
map, 
reduce, 
{ 
out: "wordcount", 
query: {"metadata.iso language code" : "de"} 


} 


Jede Phase des MapReduce-Algorithmus erlaubt das Ausführen einfacher bis sehr 
komplexer Prozesse: Dies reicht von simplen Filtern bis zu umfangreichen Be- 
rechnungen von Kennzahlen und der Identifizierung von Mustern. Ziel des Pro- 
zesses ist dabei immer die Reduzierung des Datenumfangs auf wenige Daten oder 
Kennziffern. MapReduce erlaubt zudem eine hohe Flexibilität bei der Ausgabe 
und Speicherung der Ergebnisse: So können die erzeugten Daten in einer separaten 
Collection innerhalb oder außerhalb der verwendeten Datenbank abgelegt werden 
oder bereits vorhandene Collections überschreiben und so den Speicherbedarf ver- 
ringern. Dennoch ist MapReduce für die meisten Analysen von Twitter-Daten 
überdimensioniert. Bereits elementare Abfragen erfordern Programmierkennt- 
nisse in JavaScript und einen größeren Zeitaufwand als das Aggregation-Frame- 
work (Chodorow, 2013, S. 140). Folglich ist diese Analysemethode vor allem für 
sehr großvolumige Berechnungen an kontinuierlich wachsenden Datensets geeig- 
net. 


4.3.2.4 Vergleich der Ansätze 


Mit den in MongoDB integrierten grundlegenden Abfragemethoden stehen bereits 
einfache Möglichkeiten zum Zählen, Filtern und Restrukturieren zur Verfügung, 
deren Nutzung bereits während der Datensammlung möglich ist. Für größere und 
schnell ansteigende Datenmengen eignen sich jedoch nur das Aggregation Frame- 
work und MapReduce. Diese Werkzeuge ermöglichen nicht nur komplexere Ab- 
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fragen und Befehle, sondern funktionieren auch problemlos bei sehr großen Da- 
tensets. Allerdings ist hier die Befehls- und Prozessstruktur deutlich komplizierter 
und unübersichtlicher. Für MapReduce benötigt man zudem Kenntnisse in der 
Programmiersprache JavaScript. Im Vergleich zum Aggregation Framework ist 
MapReduce für sehr große Daten deutlich besser geeignet, da es keine Begrenzung 
hinsichtlich der zu verarbeitenden Datenmenge gibt. Allerdings ist bei dieser Me- 
thode auch der Leistungsbedarf (CPU-Auslastung) höher bei vergleichsweise ge- 
ringerer Geschwindigkeit (Marturana, 2015). Tabelle 8 fasst die Vor- und Nach- 
teile noch einmal zusammen. 


Tabelle 8: Vergleich der Aggregations-Methoden von MongoDB 


port der Ergebnisse 
Verarbeitet maxi- 
mal 20.000 Datens- 
ätze 

Keine Sharding-Un- 
terstützung 


maximal 10 % des 
Arbeitsspeichers 
Programmierung 
unübersichtlich bei 
vielen Stufen 


ABFRAGEN AGGREGEATION MAPREDUCE 
FRAMEWORK 
VORTEILE e Schnell e Vielzahl umfassen- e Sehr mächtig 
e Einfach und über- der Funktionen Kein Datenlimit 
sichtlich e Stufenweiser Auf- Export der Ergeb- 
bau nisse 
e Export der Ergeb- Sharding-Unterstüt- 
nisse zung 
e Sharding-Unterstüt- 
zung 
NACHTEILE |e Kein Speichern/Ex- e Datenaufnahme bis JavaScript-Kennt- 


nisse erforderlich 
Komplex 
Langsamer als das 
Aggregation Frame- 
work 

Erhöhter Leistungs- 
bedarf 


Die in diesem Kapitel vorgestellten Methoden sind alle mit den Bordmitteln?® von 
Python und MongoDB realisierbar. Jedoch eignen sie sich vor allem nur für allge- 
meine quantitative Analysen, wie der Generierung von Häufigkeitsverteilungen 
oder der Berechnung von Kennzahlen. Für detaillierte Inhaltsanalysen von Tweets 


?8 Mit Ausnahme kleinerer Zusatzpakete, wie beispielsweise dem Schnittstellen-Paket pymongo. 
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bedarf es spezialisierter Software aus dem Bereich des Natural Language Proces- 
sing. Das folgende Kapitel stellt deshalb ausgewahlte Programme und Methoden 
der Computerlinguistik vor, die über das grundlegende Zählen der Worthäufigkeit 
aus dem letzten Beispiel hinausgehen. 


4.3.3 Natural Language Processing (NLP) 


Für die computergestützte Textanalyse über Python eignet sich das umfangreiche 
Softwarepaket Natural Language Toolkit (NLTK) (Loper & Bird, 2002). NLTK 
ist eine Sammlung von Bibliotheken und Programmen, die eine plattformunab- 
hängige Programmierumgebung für NLP-Programme in Python bereitstellt. Es be- 
inhaltet unter anderem standardisierte Klassen für Part-of-Speech-Tagging, Text- 
Klassifizierung und syntaktische Analyse (Bird et al., 2009, S. 4). Zudem besteht 
die Möglichkeit, Texte direkt aus einer Datenbank auf MongoDB abzurufen. 
NLTK wird wie andere Module installiert, benötigt aber noch zusätzliche Biblio- 
theken zur Darstellung von Plots oder mathematischen Berechnungen. 

Die im vorigen Kapitel begonnene Analyse von Tweets zum Frankentatort 
wird in diesem Kapitel fortgesetzt und vertieft. Vorbereitend (siehe Listing 19) 
filtert ein aggregate-Befehl alle Tweets nichtdeutscher Sprachen außerhalb des 
relevanten Zeitraums und schreibt diese in eine separate Collection, die nun als 
Datengrundlage für den Textkorpus dient. 


Listing 19: Vorbereitung der NLP-Analyse in MongoDB 


> db.tatort tweets.aggregate ( 
{ Smatch : {"created at": 
{Sgte: ISODate ("2015-04-11T12:00:00.0002"), 
. $lt: ISODate ("2015-04-13T12:00:00.0002") }, 
‘ "metadata.iso language code" : "de"}}, 
{Sout: "dt _tweets"}); 


4.3.3.1 Anwendungsbeispiel: Computerlinguistische Analyse des 
Franken-Tatorts 


Zunächst wird über die MongoDB-Schnittstelle eine Verbindung zur Collection 
hergestellt und die Einträge ausgelesenen. Als Index für diesen Textkorpus dient 
in diesem Fall der Veröffentlichungszeitpunkt (created_at). Eine Ausgabe der 
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Häufigkeitsverteilung aller enthaltenen Tweets über den definierten Zeitraum 
dient der ersten Übersicht (siehe Abbildung 15). Tweets mit dem Begriff Tatort 
erscheinen demnach vor allem während der Ausstrahlung und in den Stunden da- 
nach. Daraus könnte man ableiten, dass hier das typische Phänomen des second 
screen vorliegt: Zuschauer nutzen während dem Fernsehschauen weitere Geräte 
(wie Tablets oder Computer) und kommentieren das Gesehene in Sozialen Medien 
(Courtois & D'heer, 2012). 


300 T 


— Tweets mit Begriff “tatort” 


250} 
200} 


150} 


Tweets pro Minute 


20:00 Uhr 02:00Uhr 08:00 Uhr 12:00 Uhr 20:00 Uhr 02:00 Uhr 08:00 Uhr 
Samstag, 11.04.2015 Sonntag, 12.04.2015 Montag, 13.04.2015 


Abbildung 15: Verteilung der Tweets zum Franken-Tatort nach Uhrzeit. 


Wie und über was die Twitter-Nutzer/-innen schreiben, soll nun eine detaillierte 
Textanalyse ermitteln. Wie bereits erwähnt wurde, bedarf die Analyse von Twit- 
ter-Text eine gründliche Vorbereitung. Im Gegensatz zu (relativ standardisierten) 
Buchtexten oder Nachrichtenartikeln, die eine korrekte Satzstruktur und Recht- 
schreibung aufweisen, bestehen Tweets häufig aus Abkürzungen, Neologismen, 
mehreren Sprachen, Sonderzeichen, Links und Umgangssprache (siehe dazu auch 
Kapitel 4.3.1). Deshalb muss der Textinput zunächst bereinigt werden, um ihn in 
der späteren Analyse zuverlässig zu verarbeiten. 

Dafür extrahiert das Programm aus Anhang B” zunächst aus allen Tweet-Tex- 
ten die einzelnen Wörter — man spricht hier von Tokenisierung. Um häufige Füll- 
wörter aus der Häufigkeitsanalyse auszuschließen, sollen diese Stopwords in ei- 
nem zweiten Schritt erkannt und gefiltert werden. NLTK stellt bereits Kataloge 


” Aufgrund der Länge des Programmcodes erfolgt die Darstellung dieses Skript nur im Anhang. 
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solcher Stopwords (u.a. auf Englisch und Deutsch) zur Verfügung. Zusätzlich wer- 
den unter customstopwords eigene Begriffe definiert, die für den Franken-Tat- 
ort in einer hohen Häufigkeit vermutet wurden (wie zum Beispiel Tatort, heute, 
gleich). Die erkannten Wörter werden in Kleinbuchstaben umgewandelt. Das 
Skript liest alle Text Entities ein und filtert alle definierten Stopwords. 

Zudem definiert das Skript alle Begriffe, die mit einem @-Zeichen beginnen, 
als Mentions und alle Wörter mit vorangestellter # als Hashtags. Alle Satzteile, die 
mit http oder www beginnen, werden als Links klassifiziert. Die Häufigkeitsana- 
lyse schließt auch diese drei Wort-Klassen aus, wie auch Begriffe mit weniger als 
drei Buchstaben. Ebenso überprüft das Programm, ob die ermittelten Wörter rein 
aus Buchstaben bestehen. So fallen beispielsweise Begriffe wie 2rad oder kla4 aus 
der Untersuchung heraus. Das Histogramm in Abbildung 16 zeigt das Ergebnis 
der Analyse. 
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Abbildung 16: Häufigkeit der Top 20 Begriffe zum Franken-Tatort. Eigene 
Darstellung. 
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Bei Betrachtung des Resultates ragt die Prominenz des Wortes „gut“ hervor. Auf 
den ersten Blick scheint der Tatort eine positive Wirkung erzielt zu haben. Jedoch 
besteht auch die Möglichkeit, dass diese Begriffe in einem anderen Kontext ver- 
wendet wurden, wie „nicht schön“ oder „gar nicht gut“. Deswegen erscheint hier 
eine Betrachtung der Konkordanz, also die kontextuelle Einbettung eines Wortes 
in einem Satz, als sinnvoll. Für diese Auswertung wurde ein angepasstes Skript 
verwendet, das zwar analog zum ersten Filter alle Wörter separiert, jedoch keine 
Stopwords filtert (siehe Anhang B). Der Datensatz enthielte sonst beispielsweise 
keine wertenden Wörter wie „nicht“ oder „voll“. Das unter sel_tokens2 gefil- 
terte Datenset wurde nur um Links und Mentions bereinigt. Zudem erfolgt die 
Analyse nicht auf Wort-, sondern auf Satzebene. Auch für diese Tokenisierung 
stellt das NLTK eine Methode zur Verfügung. Die Separation erfolgt anhand gän- 
giger Satzzeichen, die im Üblichen das Ende eines Satzes markieren: :,.!?. 


Listing 20: Konkordanz des Wortes "gut" in Tweets zum Franken-Tatort 


Displaying 25 of 677 matches: 
- premiere ganz gut an . # tatort http :// t . co / ormg6 
@ daserste sehr gut ! gute besetzung , von der handlung h 
rt ich fand ihn gut mit potenzial nach oben . charaktere 
rt ich fand ihn gut . solider fall und das neue duo - int 
amp ; # tatort gut \ xfcberstanden ? - # feelixgmbh star 
nderdiddle ganz gut # tatort ', u ' rt @ media_n mngmnt 
e4mlich richtig gut ! # dadord https :// t . co / z2hvg6k 
der wirklich so gut ?', u '@ tatort @ brfrankentatort gib 
', u' war der gut der # tatort ? kann ihn fr \ xfcheste 
rt war noch nie gut , da machen die amis bessere filme , 
ng nach richtig gut !\ nbester spruch : do is die katz gf 
rt sensationell gut ! mehr davon ', u ' ich habe kein ein 
ranken - tatort gut fand :', u ' rt @ mpjhaug : hab dich 
in handwerklich gut gemachter krimi viel \ u2026 ', u ' h 


in handwerklich gut gemachter krimi viel besser .', u ' r 
ranken - tatort gut fand :', u ' rt @ tweetbarth : viel s 
er ist wirklich gut gewesen ! # megusta ', u ' top 5 der 


vielleicht doch gut , dass der n \ xe4chste # bpt der # p 
nn \ xfernberg gut ! wobei das fr \ xe4nkisch da schon e 
ja ned so arch gut .', u ' rt @ loausro : @ condral902 a 
# tatort ', u ' gut , dass jetzt niemand mehr \ xfcber de 
tatort auch so gut gefallen ;) weiterhin w \ xfcnschen w 
haut , ist echt gut geworden :) # nuernberg # tatort ', u 
ganz besonders gut hat mir am # tatort gefallen , dass n 
und war richtig gut . weiter so !', u '# tatort \ n # rot 
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Der Index für das Key Word in Context „gut“, dargestellt in Listing 20, zeigt für 
die ersten Tweets eine mehrheitlich positive Einbettung des Begriffs. Um eine all- 
gemein gültige Aussage treffen zu können, muss die Konkordanz für jeden Fall 
betrachtet werden. Diese Aufgabe übernimmt die Analyse von Kollokationen, die 
die häufigsten Wortpaare ausgibt. Das Skript im unteren Teil von Anhang B sucht 
nach den 20 häufigsten Bigrammen, die den Begriff „gut“ enthalten und öfter als 
10 Mal im gesamten Textkorpus auftauchen. Der Output bestätigt die These der 
guten Bewertung des Franken-Tatorts. 


Listing 21: Häufigste Bigramme zum Franken-Tatort 


[(utaufn', u'gut'), (u'gut', u'isser'), (u'richtig', 
u'gut'), (u'sehr', u'gut'), (u'wirklich', u'gut'), (u'beson- 
ders', u'gut'), (u'gut', u'gefallen'), (u'so', u'gut'), 
(u'gut', u'tut'), (u'ganz', u'gut'), (u'ziemlich', u'gut'), 
(urgut", u*hat"),- (u"gue!, utrte"); (techt", ugut" yy 
(u'gut', u'dass'), (u'war', u'gut'), (u'gut', u'mehr'), 
(u'gut', u'aber'), (u'ja', u'gut'), (u'zu', u'gut')] 


Die bisherigen Auswertungen des Tatorts waren sehr grundlegend. Besonders bei 
der Ermittlung des allgemeinen Tenors auf Twitter zum Tatort genügen einfache 
Auszählungen oder die reine Betrachtung der Wort-Einbettung nicht. Für verläss- 
liche Bewertungen bedarf es Algorithmen der Sentiment-Analyse, die die Stim- 
mung beziehungsweise die Wertung von Tweets erkennen. 


4.3.3.2 Anwendungsbeispiel: Sentiment-Analyse von Tweets zum 
Franken-Tatort 


Laut Pang und Lee (2008) entwickelte sich die Sentiment-Analyse zu einem mitt- 
lerweile stark repräsentierten Forschungsgebiet innerhalb der Computerlinguistik 
mit zahlreichen etablierten Techniken und einer Vielzahl an freien und kosten- 
pflichtig verfügbaren Programmen. Zur automatisierten semantischen Bewertung 
von Tweets bedarf es immer konnotierter Korpusse, die wertende Begriffe bein- 
halten und diese (zum Teil) hinsichtlich ihrer Aussagekraft gewichten. Die zur 
Verfügung stehenden Algorithmen, wie zum Beispiel der Naive Bayes Klassifika- 
tor, lesen den (vorverarbeiteten) Twitter-Text ein und vergleichen die enthaltenen 
Begriffe mit Katalogen konnotierter Begriffe. Da die abschließende Bewertung 
vor allem von der Quantität und Qualität dieser Korpusse abhängt, ist die Wahl 
des geeigneten Korpus sehr wichtig. 
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Auf Twitter spezialisierte Sentiment-Korpora existieren jedoch momentan nur fiir 
die englische Sprache. Somit besteht nur die Möglichkeit, allgemeine deutsche 
Korpora zu nutzen oder selbst einen Korpus zu erstellen. In dieser Arbeit wird 
SentiWS (Remus, Quasthoff & Heyer, 2010) der Universität Leipzig verwendet, 
das kostenlos erhältlich ist. Das Programm besteht vor allem aus zwei Lexika, die 
1650 positive und 1818 negativ annotierte deutsche Begriffe zuzüglich ihrer Beu- 
gungen beinhalten. Jedes Wort ist mit einem Index versehen, der von -1 (sehr ne- 
gativ) bis +1 (sehr positiv) reicht. 

„Ich fand den # tatort ja ned so arch gut“ (J., 2015) — bereits mit diesem bei- 
spielhaft ausgewählten Tweet wird klar, dass aufgrund der Eigenheiten der Twit- 
ter-Kommunikation nicht alle verwendeten Begriffe in diesen Lexika enthalten 
sein werden. Deswegen müssten falsch geschriebene Begriffe und Dialektsprache 
in reguläres Deutsch umgeschrieben werden. Dies könnte zum größten Teil auto- 
matisiert geschehen, sofern ein entsprechender Korpus für deutsche Dialekte und 
Internetjargon vorläge. Da eine manuelle Erstellung dieses Korpus den Rahmen 
der Arbeit überschreiten würde, greift diese nur auf den regulären SentiWS-Kor- 
pus zurück. 

Basierend auf den deutschen Korpus wird im Folgenden mithilfe des über- 
wachten maschinellen Lernens ein Identifikator trainiert, der anhand von Begrif- 
fen die emotionale Wertung eines Tweets erkennt (siehe Anhang B). Der hierfür 
verwendete Naive Bayes Klassifikator (NBK) nutzt die bereits vorhandenen Lis- 
ten positiver und negativer konnotierter Ausdrücke des Korpus, die um zwei Lis- 
ten von fiktiven Test-Tweets mit positiven und negativen Ausdrücken erweitert 
werden. Das Training erfolgt anhand des Korpus und wird schließlich an 3.000 
zufällig ausgewählten Begriffen angewendet. 

Daraus ermittelt der Naive Bayes Klassifikator 20 der aussagekräftigsten Fea- 
tures. Die Merkmalserkennung (Feature Extraction) über ein Testset dient der 
Verschlankung des Ausgangswortschatzes des Klassifikators für die Gesamtana- 
lyse. Die Reduktion auf die besonders aussagekräftigen Begriffe in Bezug auf die 
Stimmung eines Tweets minimiert Aufwand und Dauer der Klassifizierung. Durch 
die Einschränkung auf Features werden zudem auch Störfeatures, die die Qualität 
der Analyse minimieren, eliminiert. Das Feature Set dient nun als Wörterbuch für 
die Sentiment-Klassifikation des gesamten Tweet-Korpus. Nach der Erkennung 
der Stimmung jedes Tweets erfolgt die Ausgabe in ein Diagramm, das Abbildung 
17 dargestellt. 
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Abbildung 17: Stimmungsverlauf auf Twitter 
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Das Schaubild zeigt den Verlauf der aggregierten Stimmung in Tweets mit dem 
Begriff ,,tatort“ über das in Listing 15 gefilterte Datenset (11. bis 13.04.). Hier 
wird deutlich, dass es im allgemeinen Zeitverlauf keine eindeutige Stimmung in 
den Tweets gibt. Dagegen erkennt man in der Zeit während der Ausstrahlung der 
Sendung eine überwiegend positive Stimmung. Möglich ist jedoch auch, dass der 
NBK schlecht trainiert wurde. Der Trainingsprozess sollte deshalb sorgfältig und 
idealerweise mehrstufig erfolgen: Nach Erstellung eines Trainingssets folgt die 
Anwendung auf ein bereits manuell konnotiertes Testset. Das Trainingsset wird 
dabei solange editiert, bis eine hohe Übereinstimmung zwischen manuellem und 
automatisch ermitteltem Sentiment vorliegt. Eine ausführliche Sentiment-Analyse 
über die allgemeine Darstellung der Funktionsweise hinaus übersteigt jedoch den 
Rahmen dieser Arbeit. 

Die beiden Anwendungsbeispiele machen deutlich, dass eine verlässliche au- 
tomatisierte und computergestützte Inhaltsanalyse von Tweets nicht ohne weitere 
Schritte der Vorverarbeitung möglich ist. Da die Qualität der Daten entscheidend 
für die Aussagekraft der verwendeten Algorithmen ist, sollten folglich immer vor- 
gelagerte Filter, Strukturierungen und Korrekturen erfolgen. Dennoch besteht 
auch nach diesen Schritten immer noch das Problem der fehlenden Berücksichti- 
gung des Tweet-Kontextes. Das Erkennen von Ironie und Sarkasmus ist so nicht 
möglich. Die Aussagekraft, besonders bei Sentiment-Analysen, ist somit immer 
eingeschränkt. 

Nachdem nun einige Ansätze zum Verarbeiten und Analysieren von Tweets 
für Forschung präsentiert wurden, folgt nun eine abschließende Betrachtung von 
Twitter als Quelle wissenschaftlicher Arbeiten. Dabei fließen die Erkenntnisse aus 
den vorigen Kapiteln mit ein. 
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5 Twitter als Quelle wissenschaftlicher Analysen 


Der Mikroblogging-Dienst Twitter ist seit einiger Zeit eine viel genutzte Quelle 
für sozial- und wirtschaftswissenschaftliche, aber auch technische Studien. „In ad- 
dition to being a versatile communications platform to users around the globe, 
Twitter is also an excellent source of current information“ (Gaffney & Puschmann, 
2014, S. 55). Der Dienst vereint also vielseitige Kommunikationsmöglichkeiten 
mit einer guten Verfügbarkeit von Informationen, wobei letzteres nicht nur für die 
eigentlichen Nutzer gilt, sondern auch für die Forschung. Dennoch hat Twitter 
auch zahlreiche Einschränkungen, zum Beispiel hinsichtlich der Qualität und Ver- 
lässlichkeit der Daten. Die folgenden Kapitel skizzieren die Vor- und Nachteile 
von Twitter-Daten für die Wissenschaft und bewerten die Eignung von Twitter als 
Quelle für wissenschaftliche Analysen anhand mehrerer Aspekte. 


5.1 Informationsgehalt 


Ein großer Vorteil von Twitter im Vergleich zu anderen sozialen Netzwerken wie 
Facebook oder MySpace ist die offene Kommunikation. Einzelne Meldun- 
gen/Tweets oder ganze Konversationen können durch jeden gesucht und gelesen 
werden — unabhängig, ob man als Nutzer registriert und mit einer Person befreun- 
det ist. Diese offene Gestaltung schafft einen hohen Grad an Publizität (Jürgens & 
Jungherr, 2011, S. 205). Dies kann hinsichtlich der häufig geführten Datenschutz- 
Debatte ein Problem sein, ist jedoch für Forschende von großem Nutzen: Zum 
einen erhält man Zugriff auf umfassende und ungefilterte Daten, zum anderen 
müssen (zunächst) keine strengen Datenschutz- und Anonymisierungsauflagen 
eingehalten werden. Zudem können die Daten detailliert sein: Neben personenbe- 
zogenen Informationen, wie Name, Wohnort und Sprache, Followers und Follo- 
wings, kann über die einzelnen Tweets, Retweets, Mentions und Favorites die Ein- 
stellung zu Themen und Nutzern oder die Stimmung abgefragt werden. Ferner ste- 
hen diese Informationen — bei Verwendung der frei zugänglichen Twitter APIs — 
kostenlos zur Verfügung. Beim Sammeln und Verknüpfen dieser Daten über einen 
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längeren Zeitraum erhält man eventuell umfassende Informationen über das Ver- 
halten, die Stimmung oder Einstellung zu einem Thema. 

Aufgrund der Begrenzung der Tweets auf 140 Zeichen und einer einfachen 
Gestaltung des Dienstes können Informationen schnell an einzelne Personen (One- 
to-One), eine Gruppe (One-to-Few) oder die Öffentlichkeit (One-to-Many) kom- 
muniziert werden (Williams et al., 2013, S. 385). In Verbindung mit einer relativ 
hohen Anonymität wird hierdurch auch eine ungezwungene Konversation geför- 
dert, beziehungsweise die Hemmschwelle für eine kritische oder sozial uner- 
wünschte Äußerung zu einem Thema gesenkt. Dies begünstigt nicht nur die 
Tweet-Wahrscheinlichkeit und -häufigkeit eines Nutzers und somit den Datenum- 
fang für Studien, sondern ermöglicht der Forschung auch Einblicke in die Psyche 
der Nutzer (Java et al., 2007; Zhao & Rosson, 2009). Zudem beschränkt sich der 
Inhalt aufgrund der strengen Zeichenbegrenzung auf das Wesentliche: Statt langen 
Texten sind Nutzer gezwungen, in wenigen Sätzen Meinungen zu äußern oder In- 
formationen zu vermittelt (boyd et al., 2010a). 


5.2 Datenstruktur 


Die Komprimierung des Inhalts auf konstante Textlängen und die hohe Standar- 
disierung von Tweets durch feste Konventionen der Kommunikation ermöglichen 
eine einfache, automatisierte Auswertung der Inhalte auf Twitter (Marres & 
Weltevrede, 2013). Über Hashtags können die wichtigsten Themen erfasst wer- 
den, Mentions, Replies und Followings geben Auskunft über die Vernetzung eines 
Nutzers, Retweets und Favorites zeigen die Zustimmung eines Nutzers zu einer 
Äußerung oder das Gefallen einer Meldung an (Bollen, Pepe et al., 2011; Pak & 
Paroubek, 2010). Diese Informationen können schnell und ohne großen Aufwand 
aus Tweets extrahiert werden, da Twitter sie — wie auch Links zu Webseiten, Vi- 
deos und Bilder — gesondert als Metadaten übermittelt. 

Jedoch ist eine inhaltliche Analyse unter Umständen auch problematisch: Auf 
Twitter wird, wie in vielen anderen internetbasierten Diensten, die Sprache abge- 
wandelt. Abkürzungen, Neologismen, vermischte Sprachen und ein unvollständi- 
ger Satzbau prägen die Konversation im Internet (Bifet & Frank, 2010; Carter et 
al., 2013; Gottron & Lipka, 2010). Dies kann, wie bereits in Kapitel 4.3.1 erwähnt, 
eine automatische Inhaltsanalyse durch Programme behindern oder zu Fehlinter- 
pretationen führen. Ebenso ist die Richtigkeit der Nutzerangaben nicht verifiziert: 
Twitter-Nutzer können falsche Standortangaben machen, eine andere Sprache 
wählen oder fiktive Namen verwenden (Cheng et al., 2010; Orita & Hada, 2009). 
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Gerade die Tatsache, dass Tweets vor allem auf Englisch geschrieben werden (Se- 
miocast, 2013), erschwert eine Zuordnung des Nutzers zu einer Nationalität. 

Zudem fehlen wichtige, nutzerspezifische Merkmale wie das Alter oder das 
Geschlecht. Twitter verlangt diese Informationen nicht bei der Registrierung. Dies 
wiederum behindert eine mögliche Eingrenzung des zu beobachtenden Nutzer- 
kreises für eine Erhebung. Es ist beispielsweise nicht möglich, nur Tweets von 
Bundesbürgerinnen zur Bundestagswahl zu erfassen, indem nur Tweets aus deut- 
schen Städten in deutscher Sprache mit einem gewissen Hashtag gespeichert wer- 
den. Twitter ist eine globale Plattform und ist jederzeit von jedem Ort abrufbar. 
Somit eignen sich Twitter-Daten auch nur für global bezogene Analysen oder zu- 
mindest für solche, bei denen sozidemographische Merkmale, wie Alter, Ge- 
schlecht und Nationalität keine Bedeutung haben. Diese Einschränkung kann na- 
türlich minimiert werden, indem Hashtags verwendet werden, die von sich aus nur 
von lokalem Interesse sind: #tatort wird mit hoher Wahrscheinlichkeit vor allem 
von deutschsprachigen Personen verwendet und entsprechend selten in Asien oder 
Amerika. Dennoch besteht die Möglichkeit, dass auch Tweets erfasst werden, die 
für die Analyse keine Bedeutung haben. 

In diesem Kontext ist eine Eingrenzung des Datensets auch deshalb schwierig, 
weil nicht jeder Nutzer zwangsläufig dasselbe Hashtag für ein Thema nutzt, ge- 
schweige denn überhaupt ein Hashtag verwendet. Sollen eher diffusere Themen, 
wie die Meinung zu einer Partei erfasst werden, fällt die Wahl des geeigneten 
Suchterms schwer. In diesem Fall empfehlen sich mehrere Abfragen mit unter- 
schiedlichen Begriffen (Beispiel CDU: „merkel“, „cdu“, „konservativen“, „christ- 
demokraten“ usw.). 

Ein ähnliches Problem stellen Tweets und Replies dar, die zu einem Thema 
oder einer Aussage geschrieben werden, ohne dabei Begriffe zu enthalten, die eine 
Zuordnung zu einem Thema ermöglicht. Zum Beispiel: Nutzerinl schreibt „der 
tatort ist sowas von langweilig“ und Nutzer? antwortet: ,,@Nutzerin1: ich stimme 
dir zu!“. Ebenso können Aussagen, die Ironie oder Sarkasmus enthalten, aufgrund 
des nicht ersichtlichen Kontextes falsch interpretiert werden. Diese Zusammen- 
hänge können nur bei einer qualitativen Analyse erfasst werden, die den Kontext 
von Tweets berücksichtigt. 
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5.3 Reprasentativitat 


Twitter macht keine genauen Angaben zu Umfang und Vollständigkeit der durch 
die APIs übermittelten Daten, wie beispielsweise zu der Repräsentativität des 
Streaming API Samples. Das Unternehmen weist jedoch zumindest bei den REST 
APIs darauf hin, dass der Fokus dieser Schnittstellen auf der Übermittlung rele- 
vanter und nicht vollständiger Daten liegt (Twitter, Inc., 2015g). Das mag nicht 
nur daran liegen, dass Twitter den Zugriff auf vollständige Daten (über Firehose 
und den eigenen Datenhändler Gnip) als Einnahmequelle nutzt, sondern auch an 
den technologischen Herausforderungen bei der Bereitstellung von Echtzeit-Daten 
in einer ständig wachsenden Infrastruktur. 

Bei der Betrachtung von Twitter-Daten sollte ferner immer berücksichtigt wer- 
den, dass die Nutzerzahl mit etwa 800 Millionen?® weltweit zwar sehr hoch, die 
Zahl aktiver Nutzer mit 284 Millionen jedoch deutlich geringer ist, wovon wiede- 
rum etwa 30 Prozent US-Amerikaner sind (Semiocast, 2012). Dabei sind auch 
diese Werte nur eingeschränkt zuverlässig, da auch Semiocast die Herkunft der 
Accounts mittels der zur Verfügung stehenden Daten schätzen muss. Dennoch 
bleibt Twitter in vielen Ländern ein Nischen-Medium mit einem elitären Nutzer- 
kreis: 2013 nutzten in Deutschland etwa 7 Prozent Twitter zumindest unregelmä- 
Big, davon wiederum 7 Prozent täglich (Busemann, 2013, S. 398). 53 Prozent der 
Nutzer war zwischen 14 und 29 Jahren alt. 

Dementsprechend ist die Repräsentativität von Twitter-Daten stark einge- 
schränkt. Norris (2001) spricht im Kontext der verzerrten Nutzung von Online- 
Massenmedien auch von einem Digital Divide. Im Internet bildeten sich demnach 
vermehrt Netzeliten mit höherem sozioökonomischen Status beziehungsweise for- 
maler Bildung, die neue Medien (wie Twitter) früher und intensiver nutzen sowie 
besser informiert seien. Die wenigen Studien, die sich mit der Demografie von 
Twitter-Nutzern beschäftigen, beschreiben den typischen Twitter-Nutzer als rela- 
tiv jung (19-29 Jahre) mit höherem Bildungsgrad und etwas erhöhtem politischen 
Interesse im Vergleich zur Gesamtbevölkerung (Duggan, Ellison, Lampe, Len- 
hart, & Madden, 2015; Gainous & Wagner, 2014; Vaccari et al., 2013). 

Somit sollte man immer beachten, dass die Zuverlässigkeit und Repräsentati- 
vität von Twitter-Daten eingeschränkt ist und beispielsweise mit Interviews oder 
Umfragen nicht verglichen werden kann. Nach Jungherr (2015, S. 25) erlaubt 


3 Twitter, Inc. nennt keine offiziellen Zahlen zu registrierten Benutzerkonten, sondern veröffentlicht 
nur die Zahl aktiver Nutzer. Altere Schätzungen gehen von etwa 800 Millionen registrierten Konten 
aus (Edwards, 2013). 
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Twitter zwar einen guten Einblick über die Veränderung von Absichten und Ein- 
stellungen von Nutzern, aber keine verlässlichen Rückschlüsse auf die allgemeine 
öffentliche Meinung. Eine Verlässlichkeit von Twitter-Inhalten ist nie vollständig 
gewährleistet: Weder die Echtheit eines (nicht-prominenten) Twitter-Accounts, 
noch die tatsächliche Meinung eines Nutzers oder die Echtheit einer verbreiteten 
Information können bestätigt werden (Gayo-Avello, 2012; Metaxas, Mustafaraj, 
& Gayo-Avello, 2011). 


5.4 Datenverfügbarkeit 


Neben der mangelnden Repräsentativität von Twitter-Daten ist auch deren einge- 
schränkte Verfügbarkeit problematisch: Je nach Datenquelle können entweder zu- 
künftige (Streaming API) oder vergangene (REST APIs) Tweets kostenlos abge- 
fragt werden. Zudem gibt es noch eine Vielzahl von Drittanbietern, die ebenfalls 
unterschiedliche Einschränkungen hinsichtlich Zeitraum und Umfang haben. 
Letztlich wäre eine Vollständigkeit der Daten nur bei Zugriff auf die Firehose be- 
ziehungsweise bei Erwerb von Datenpaketen bei Gnip gewährleistet. 

Zudem sind historische Tweets nach 6 bis 9 Tagen nur noch über einzelne Ab- 
fragen (Anhand der User- oder Tweet-ID) abrufbar. Bei sehr aufsehenerregenden 
Ereignissen, wie beispielsweise dem Finale der FIFA Fußball-WM der Männer, 
ist eine umfassende Erhebung von Tweets mit Hilfe der Streaming API nicht mög- 
lich, da sehr schnell das Bandbreiten-Limit von einem Prozent überschritten wird. 
Da die Suchergebnisse Search API nicht vollständig und zeitlich begrenzt sind, ist 
es für derartige Ereignisse sinnvoll, Daten nachträglich zu kaufen. Diese Ein- 
schränkungen behindern nicht nur die Forschung an sich, sondern erschweren 
auch eine Reproduzierbarkeit der Ergebnisse, da nicht gewährleistet ist, dass jede 
Abfrage mit gleichen Parametern identische Daten erzeugt (Gaffney & Pusch- 
mann, 2014, S. 65). 

Die Unvollständigkeit der Daten erzeugt noch ein weiteres Problem: Ähnlich 
wie bei der Analyse von wertenden Aussagen ist auch bei rein quantitativer Be- 
trachtung der Kontext für eine Einordnung der Daten notwendig. Ohne das Wissen 
über das absolute Twitter-Volumen können, wie bereits in Kapitel 4.1.4 erwähnt, 
nur eingeschränkt Aussagen über die Bedeutung absoluter Zahlen getätigt werden. 
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5.5 Metriken und Methoden 


Obwohl sich die Wissenschaft bereits seit geraumer Zeit mit Twitter beschäftigt, 
fehlen noch immer allgemein gültige Standards hinsichtlich Metriken aber auch 
Methoden. Bruns und Stieglitz (2014, S. 69-70) thematisieren den Bedarf an ak- 
zeptierten Standards für die quantitative Analyse von Nutzer-Aktivitäten auf Twit- 
ter. Diese sollten flexibel ausgelegt sein, um sie bei unterschiedlichste Analyseein- 
heiten anwenden zu können: Von einzelnen Nutzern bis zu Gruppen, von spezifi- 
schen Hashtag-Analysen bis zu Ad-hoc-Analysen des gesamten Datenstroms. 
Diese Metriken würden die Vergleichbarkeit von Studien und deren Ergebnissen 
vereinfachen (Bruns & Stieglitz, 2013, S. 3). 

Mögliche Bereiche für Metriken wären nach Bruns und Burgess (2012) Hash- 
tags, Nutzer und das Gesamtvolumen. Ein Beispiel wäre demnach das Verhältnis 
von aktiven zu wenig aktiven Nutzern, die ein Hashtag verwenden, um den Ein- 
fluss von sehr aktiven und vernetzten Nutzern bei der Verbreitung von Hashtags 
zu bestimmen. Hierfür fehlt dann allerdings wiederum die Definition von aktiven 
Nutzern. Nach der Sichtweise von Twitter, Inc. (2015k) sind Nutzer aktiv, wenn 
sie mindestens einmal im Monat den Twitter-Account verwenden (zum Lesen o- 
der Schreiben). Huberman et al. (2008) setzten wiederum mindestens zwei Tweets 
voraus, wobei hier keine Angaben über den Zeitraum gemacht wurden. Cha et al. 
(2010) sahen eine aktive Nutzung erst ab einer Mindestzahl von 10 Tweets seit 
Erstellung eines Accounts. Ähnlich diffus ist die Definition von Meinungsführern 
(Lead Users). 

Des Weiteren bemängeln Bruns und Stieglitz (2014) das Fehlen allgemeiner 
Informationen seitens Twitter über das absolute Twitter-Volumen zu einem Zeit- 
punkt. Zur richtigen Interpretation von Spitzen im Twitter-Volumen und zur Ent- 
wicklung sinnvoller Metriken (wie dem Anteil am Gesamtvolumen) bedarf es de- 
taillierter Informationen über die (gesamte) Twitter-Aktivität. Damit könnten Er- 
gebnisse gewichtet und verglichen werden. Problematisch ist hierbei auch, dass 
Tweet-Datensets, die über einen Suchbegriff erstellt werden, nur Tweets enthal- 
ten, in denen der Suchterm vorkommt. Dies wurde bereits im vorigen Kapitel an- 
gesprochen. Hier wäre es sinnvoll, wenn Twitter zumindest durch Replies ver- 
knüpfte Tweets in die Suchergebnisse mit einbeziehen würde, auch wenn diese 
den Suchterm im Text nicht enthalten. 

Hierfür bedarf es aber einer Öffnung von Twitter für die Wissenschaft. Zwar 
gibt es bereits mit den Data Grants ein Programm für wissenschaftliche Nutzungs- 
zwecke (Krikorian, 2014) mit Vollzugriff auf alle erhobenen Twitter-Daten. Der 
Zugang ist aber auf sehr wenige, von Twitter ausgewählte Projekte beschränkt. 
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Inwieweit sich in der Zukunft allgemein anerkannte Metriken etablieren und Twit- 
ter bei dieser Entwicklung positiv mitwirkt, bleibt offen. 

Ahnlich wie bei den Metriken gibt es bisher auch in der Methodik keine Stan- 
dards: der Erhebungszeitraum, die Suchterm-Logik (z.B. ein oder mehrere Hash- 
tags, mit oder ohne Sprachfilter) und die Analysemethode variieren von Studie zu 
Studie. Selbst bei relativ strukturierten Vorgängen, wie der Sentiment-Analyse, 
gibt es eine Vielzahl an Ansätzen — von eigenen Skripten bis zu gängigen Analyse- 
Tools wie beispielsweise WordStat (Williams et al., 2013). Die Tatsache, dass ei- 
nige Autor/-innen weder die angewandte Analysemethode, noch das Vorgehen zur 
Erstellung des Datensatzes detailliert beschreiben, erschwert sowohl einen Ver- 
gleich, als auch die Reproduktion von Ergebnissen. 


5.6 Ethische und rechtliche Aspekte 


Neben technischen und wissenschaftlichen Problemen bestehen auch ethische und 
rechtliche Einschränkungen. Grundsätzlich muss jeder Nutzer — und somit auch 
Forschende — die rechtlichen Vereinbarungen von Twitter einhalten. Die rechtli- 
chen Rahmenbedingungen verteilen sich auf vier Dokumente: Den allgemeinen 
Nutzungsbestimmungen Terms of Service (Twitter, Inc., 2015a), der Developer 
Policy (Twitter, Inc., 2014a), dem Developer Agreement (Twitter, Inc., 2014b) für 
Entwickler und der Datenschutzrichtlinie Privacy Policy (Twitter, Inc., 2015i). 
Zudem sollten Forschende immer auch die nationalen Datenschutzbestimmungen 
sowie — bei Verwendung von Drittanbieter-Programmen — weitere individuelle 
Bestimmungen berücksichtigen. 

Fasst man diese Regelungen zusammen, lassen sich einige Einschränkungen 
für die Twitter-Forschung erkennen: Grundsätzlich darf die Datennutzung den 
wirtschaftlichen Interessen von Twitter nicht schaden. Twitter verbietet somit ge- 
nerell die Erstellung, Anreicherung und Verbreitung großer Datenbanken mit 
Tweets — und das auch für nicht-kommerzielle Zwecke (Beurskens, 2014). Dies 
ist allein Twitter und -im begrenzten Umfang — privilegierten Vertragspartnern 
vorbehalten. Zudem unterliegen größere Datenbanken mit (angereicherten) Nut- 
zerdaten den jeweiligen nationalen Datenschutz-bestimmungen (Beurskens, 2014, 
S. 130). Dies erschwert die Weitergabe vorhandener Daten an andere Wissen- 
schaftler/-innen und begrenzt dadurch die Möglichkeiten zur Reproduktion von 
Ergebnissen. 

Es ergibt sich somit ein diffuses Bild: Einerseits stellen Twitter-Nutzer auto- 
matisch ihre Tweets der Öffentlichkeit zur Verfügung (dies ist der Sinn von 
Tweets). Diese Nachrichten können über die interne Suche oder Google gefunden 
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werden. Jeder Nutzer sollte sich bewusst sein, dass prinzipiell jede Person die per- 
sönlich zur Verfügung gestellten Daten lesen kann. Andererseits behält sich Twit- 
ter die Rechte an diesen Tweets vor (zur Verarbeitung oder Weitergabe), erstellt 
aber gleichzeitig im Zuge einer Kooperation mit der amerikanischen Library of 
Congress ein öffentliches, historisches Archiv aller Tweets (Twitter, Inc., 2010). 
Folglich könnte man auch argumentieren, dass diese Twitter-Daten, die bereits 
veröffentlicht wurden, problemlos erneut (im Kontext einer Studie) verarbeitet 
und publiziert werden dürfen. 

Da Twitter die Einhaltung seiner Regeln nur schwer kontrollieren kann, emp- 
fiehlt Beurskens (2014) eine pragmatische Vorgehensweise: Selbst erstellte 
Tweet-Sammlungen sollten nie veröffentlicht und der Zugriff auf Daten kontrol- 
liert werden. Wäre eine Weitergabe von Daten für wissenschaftliche Zwecke not- 
wendig, sollten diese immer anonymisiert werden, beispielsweise durch eine Pseu- 
donymisierung oder ein Entfernen der entsprechenden, sensiblen Werte (name, 
screen_name, id). Eine Veröffentlichung/Weitergabe einzelner Tweets ist jedoch 
immer erlaubt und wird vor allem durch Medien ständig praktiziert 


5.7 Relevanz und Zukunft des Portals 


Insgesamt ist Twitter jedoch ein beachtenswertes Medium und eine nahezu uner- 
schöpfliche Datenquelle für vielseitige Forschungsschwerpunkte. Das zeigt die 
Bandbreite an Studien: Die Meta-Analyse von Williams et al. (2013) analysierte 
über 1.000 wissenschaftliche Arbeiten, die im Zusammenhang mit Twitter stehen. 
Diese klassifizierten sie unter anderem in folgende Forschungsbereiche: Wirt- 
schaft (v.a. PR, Marketing), Geografie (Bewegungsmuster, Aufenthaltsort), Ge- 
sundheit (Krankheiten), Kommunikation (Interpersonelle Kommunikation, Me- 
dien), Notfälle (Katastrophen), Klassifizierungen (Verhaltensmuster) und Sprache 
(Syntax, Semantik). Puschmann, Bruns, Mahrt, Weller und Burgess (2014, S. 426- 
427) begründen die Relevanz von Twitter für die Forschung mit der zunehmenden 
Bedeutung des Mikroblogging-Dienstes. Twitter sei ein globales Phänomen, das 
stetig an Nutzern und Tweets und somit auch an verwertbaren Daten wächst. Die 
immer stärkere Einbettung in die Medienökologie (durch Politik, Journalismus, 
Unternehmen und Privatnutzer) unterstreiche die aufstrebende Rolle in der Gesell- 
schaft und den wachsenden Einfluss auf die Gesellschaft. 

Dennoch ist die mittel- bis langfristige Zukunft von Twitter offen. Während 
die Zahl der monatlich aktiven Nutzer bis 2015 konstant wuchs, sank der Wert im 
vierten Quartal 2015 erstmals um 2 Millionen auf nun 305 Millionen (Twitter, 
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Inc., 2016). Zudem verbuchte das Unternehmen in den letzten Jahren erhebliche 
Verluste: Allein 2014 hatte Twitter einen Netto-Verlust von 578 Millionen US- 
Dollar (Twitter, Inc., 2015j). 

Inwieweit das die zukiinftige Architektur von Twitter hinsichtlich Funktionen 
und Zugriffsmöglichkeiten beeinflusst, ist noch unklar. Möglich wären restrikti- 
vere Datenzugänge (dies zeigt sich bereits in der Konzentration auf Gnip als allei- 
nigen Daten-händler) — nicht nur für kommerzielle Nutzer, sondern auch für die 
Forschung. Zudem plant Twitter eine Ausweitung der Werbeanzeigen durch bes- 
sere Vermarktungsfunktionen auf der Plattform (Bragdon, 2015). Anfang 2016 
verkündete Twitter mehrere tiefgreifende Veränderungen in der Systematik der 
Plattform. Zum einen überarbeitet das Unternehmen den Algorithmus zur Darstel- 
lung von Tweets im Feed: Anstelle einer streng chronologischen Auflistung von 
Tweets werden nun Tweets von Followees vorgefiltert und nach individueller Be- 
deutsamkeit und Popularität an den Anfang positioniert (Jahr, 2016). Diese Vor- 
sortierung ist zunächst nicht verpflichtend, allerdings besteht die Möglichkeit, 
dass Twitter diese Funktion in absehbarer Zeit für eine lukrativere Positionierung 
von Werbung nutzen könnte. 

Zum anderen wird überlegt, die Limitierung auf 140 Zeichen pro Tweet auf- 
zuheben (Dorsey, 2016). Dies widerspräche der Grundidee von Twitter, Meldun- 
gen auf das Wesentliche zu konzentrieren und den Informationscharakter zu stär- 
ken. Die geringe Textlänge ist das wichtigste Merkmal der Kommunikation auf 
Twitter und ein Alleinstellungsmerkmal gegenüber anderen Plattformen, wie Fa- 
cebook oder Instagram. Und nicht zuletzt ist die Zeichenbegrenzung ein wesentli- 
cher Vorteil für die Textanalyse. Eine Erhöhung des Limits auf 10.000 Zeichen, 
wie es momentan geplant wird, verändert letztlich nicht nur die Kommunikations- 
muster und -inhalte, sondern auch die Möglichkeit zur Datenanalyse. 

Beiden Mitteilungen führten zu einer großen Resonanz bei Nutzern und Me- 
dien. Uber das Hashtag #R/PTwitter kritisierten viele Nutzer die Abkehr von den 
Grundprinzipien des Dienstes (Steiner, 2016). Die langfristige Reaktion der Nut- 
zer (z.B. als Einbruch der Nutzerzahlen) wird sich in der Zukunft zeigen. Letztlich 
ist das Internet sehr schnelllebig: Regelmäßig entstehen und verschwinden Online- 
Kommunikationsportale. Möglich wäre also ein ähnlich rapider Bedeutungsver- 
lust von Twitter — auch aufgrund disruptiver Innovationen — wie er bei den sozia- 
len Netzwerken StudiVZ und MySpace nach dem Erfolg von Facebook zu be- 
obachten war. 
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6 Forschung mit Twitter — abschließende Bewertung 


Ziel dieser Arbeit war die Darstellung mehrerer kostenloser Ansätze zum Sam- 
meln, Speichern und Verarbeiten von Tweets. Während Kapitel 4.1 alle Möglich- 
keiten der Datenabfrage zeigen und gegenüberstellen konnte, verhinderte die Viel- 
falt an Ansätzen und Programmen sowie die individuelle Zielsetzung eine Darstel- 
lung aller Methoden zum Speichern und Analysieren. Deshalb beschränkt sich 
diese Arbeit auf einige, grundlegende und kostenlose Verfahren, mit deren Hilfe 
die Möglichkeiten und Einschränkungen nähergebracht werden sollten. 

Die in dieser Arbeit angesprochenen Vor- und Nachteile für eine wissenschaft- 
liche Nutzung von Twitter ermöglichen keine eindeutige Wertung des Dienstes als 
Forschungsinstrument. Kapitel 2 zeigte den umfassenden Forschungsstand und die 
große Bandbreite an Wegen zur Nutzung von Twitter-Daten. Dennoch zeigten sich 
bereits hier Einschränkungen: Die typische Internet-Sprache mit ihren Charakte- 
ristika, wie Abkürzungen, Mehrsprachigkeit und Neologismen, verhindert eine zu- 
verlässige, automatische Inhaltsanalyse. Die eingeschränkte Möglichkeit, Tweets 
zu vernetzen (etwa bei Konversationen), blendet den für eine inhaltliche Analyse 
unter Umständen sehr wichtigen Kontext eines Tweets aus. 

Der große Datenumfang, die Offenheit in der Kommunikation und das Set an 
detaillierten Metadaten (Kapitel 3) erlauben dennoch vielseitige Betrachtungswin- 
kel und ermöglichen zudem problemlos auch langfristige Studien. Forschende pro- 
fitieren auch davon, dass Twitter bereits strukturierte Daten über seine APIs oder 
seinen Datenhändler Gnip zur Verfügung stellt. Dies vereinfacht und beschleunigt 
das Filtern, Strukturieren und Analysieren. 

Wie in Kapitel 4 dargestellt, stehen dabei mehrere Möglichkeiten der Daten- 
sammlung zur Verfügung. Diese unterscheiden sich jedoch grundlegend hinsicht- 
lich Zeithorizont, Datenumfang und Preis, sodass je nach Forschungsabsicht und 
finanziellem Rahmen die geeignete Datenquelle gewählt werden muss. Hierbei 
gilt jedoch immer zu beachten, dass eine Vollständigkeit der Daten theoretisch nur 
beim kostenpflichtigen Datenhändler Gnip gewährleistet werden kann. Alle ande- 
ren Zugänge (APIs und Drittanbieter) haben unterschiedliche Einschränkungen, 
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sodass unter Umständen eine Kombination mehrerer Ansätze zum Sammeln von 
Tweets notwendig ist. 

Zudem gilt bei Twitter, wie bei allen sozialen Online-Diensten, dass die ver- 
fügbaren Daten nie repräsentativ und verlässlich sind. Da die Nutzerstruktur kein 
Abbild der Bevölkerung ist, sind Prognosen für Ereignisse (wie Wahlen) auf dieser 
Datenbasis nur eingeschränkt möglich. Effekte der Selbstselektion und sozialen 
Erwünschtheit beschränken zudem die Aussagekraft von Tweets ein. Die Zuver- 
lässigkeit von Aussagen (im Hinblick auf die Äußerung von Meinungen und In- 
formationen) und Meta-Daten (wie Standort und Sprache) kann kaum verifiziert 
werden. Nicht nur die Identifikation von Twitter-Spam, sondern auch die Erken- 
nung bewusster Propaganda-Tweets wird somit eine zukünftige Herausforderung 
sein. 

Die ebenfalls in Kapitel 4 besprochenen Ansätze zur Datensammlung und-ana- 
lyse setzen alle grundlegende technische Kenntnisse voraus. Eine sinnvolle Unter- 
suchung von Twitter-Daten erfordert nicht nur eine Reduktion auf wesentliche 
Daten, sondern auch eine Bereinigung und Vorverarbeitung. Besonders die spezi- 
elle Sprache auf Twitter eignet sich zunächst nicht für eine automatisierte Inhalts- 
analyse. Deswegen muss der Text zuvor aufwändig bereinigt, gefiltert und unter 
Umständen mit anderen Informationen angereichert werden. Dennoch ist eine ver- 
lässliche, automatisierte Dateninterpretation nicht gewährleistet. Der fehlende 
Kontext von Tweets macht eine korrekte Bewertung von Aussagen schwer. Der 
fehlende Mechanismus zum Sammeln von (über Mentions und Replies) verknüpf- 
ten Tweets führt zu einer ungewollten Beschränkung des Datensatzes auf Tweets, 
die den jeweiligen Suchterm enthalten. 

Für die zukünftige Forschung könnte es von Interesse sein, anerkannte Stan- 
dards für Metriken und Methoden der Twitter-Forschung zu etablieren. Das Feh- 
len von Regeln, Normen und Maßzahlen könnte sich auf das noch recht junge Al- 
ter der Twitter-Forschung zurückführen lassen. Oftmals sind auch die Anwen- 
dungsfälle derart spezifisch, dass Forschende eigene Ansätze beziehungsweise 
Programme zum Sammeln und Analysieren entwickeln. Im Hintergrund der gro- 
Ben Bandbreite an Verwendungszwecken und Forschungsrichtungen für Twitter- 
Daten wird es schwer sein, allgemein gültige Verfahren zu konzipieren. Deshalb 
empfiehlt sich zumindest die Etablierung von Metriken, um eine Vergleichbarkeit 
der Ergebnisse zu gewährleisten. 

Die Vergleichbarkeit und Reproduzierbarkeit wird wiederum durch ethische 
und vor allem rechtliche Bestimmungen eingeschränkt. Twitter behält sich das 
Monopol auf „seine“ Daten. Folgt man den Bestimmungen, wäre ein Sammeln 
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und Anreichern von großen Datensätzen nicht rechtmäßig. Ein praktikabler Mit- 
telweg zwischen der Einhaltung strikter Regeln und der Veröffentlichung für wis- 
senschaftliche Zwecke wäre die Weitergabe pseudonymisierter Daten. 

Trotz aller Einschränkungen ist Twitter eine interessante und beachtenswerte 
Datenquelle. Die offene und schnelle Kommunikation erlaubt unter Umständen 
detaillierte Einblicke in die Interessen, Meinung und Stimmung von Nutzern. Die 
Datenerhebung erfolgt dabei nahezu automatisiert. Selbst bei der Verwendung 
kostenloser Datenquellen erhalten Forschende Zugriff auf eine riesige Daten- 
menge. Berücksichtigt man alle Einschränkungen und Fallstricke (z.B. bezüglich 
Datenverfügbarkeit und Vollständigkeit), ergeben sich hinsichtlich Fragestellung 
und Zeithorizont nahezu unbegrenzte Forschungsmöglichkeiten: Von der Echt- 
zeit-Erkennung von Epidemien oder Unglücken über die Stimmungsanalyse wäh- 
rend medialer Großereignisse bis zur Erstellung von Bewegungsprofilen, Stim- 
mungsverläufen oder Interaktionen ausgewählter Nutzer. Inwieweit Twitter auch 
in Zukunft von wissenschaftlichem Interesse sein wird und kann, vor allem hin- 
sichtlich der Datenstruktur und -verfügbarkeit, hängt dabei vorrangig von den zu- 
künftigen Entscheidungen des Unternehmens ab. 
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Anhang A - Objekte und Eigenschaften der Twitter 


APIs 


A.1 Wichtige User-bezogene Datenfelder 


FAVOURITES_COUNT 


FOLLOWERS_COUNT 
FRIENDS_COUNT 

ID / ID_STR 

LANG 

LOCATION 

NAME 
SCREEN_NAME 
STATUSES_COUNT 


TIME_ZONE 


FELD BESCHREIBUNG 

CREATED_AT Zeitpunkt der Accounterstellung 
DESCRIPTION Die nutzerspezifische Account-Beschreibung 
ENTITIES > siehe Anhang A.3 Entites 


Anzahl an Tweets, die dieser User mit einem Favorite versehen 
hat 


Anzahl an Followers, die dieser Account momentan hat 
Anzahl an Nutzer/-innen, denen dieser Account folgt 
Account ID (einzigartig) 

Eingestellte Account-Sprache 

Definierter Account-Standort (z.B. Berlin) 

“Echter” Name des Accountinhabers 

Nickname (z.B. @user123) 

Anzahl an verfassten Tweets bis zu diesem Zeitpunkt 


Definierte Zeitzone 


Für eine vollständige Liste siehe https://dev.twitter.com/overview/api/users. 
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A.2 Wichtige Tweet-bezogene Datenfelder 


FAVOURITES_COUNT 
ID / ID_STR 


IN_RE- 
PLY_TO_SCREEN_NAME 


IN_REPLY_TO_STATUS_ID 


IN_REPLY_TO_USER_ID 


LANG 
PLACE 
RETWEET_COUNT 


RETWEETED_STATUS 


TEXT 


FELD BESCHREIBUNG 
CREATED_AT Zeitpunkt der Tweet-Erstellung 
ENTITIES > siehe Anhang A.3 Entites 


Anzahl an momentanen Favorites durch andere Nutzer 
ID des Tweets (einzigartig) 


Bei Retweet: screen_name des ursprünglichen Nutzers, 
sonst: null 


Bei Retweet: ID des ursprünglichen Tweets, 
sonst: null 
Bei Retweet: ID des ursprünglichen Nutzers, 


sonst: null 


Erkannte Sprache des Tweets 
Ermittelter Ort des Tweets 
Anzahl momentaner Retweets 


Bei Retweet: 
sonst: null 


Entities des ursprünglichen Tweets, 


Twitter-Text 


Für eine vollständige Liste siehe https://dev.twitter.com/overview/api/tweets. 
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A.3 Wichtige Entities eines Tweets 


FELD BESCHREIBUNG 

HASHTAGS Hashtags mit Positionsangabe innerhalb des Textes (Anfang und 
Ende) 

MEDIA Eingebettete Bilder und Videos 

URLS Eingebettete Links in Kurz- (t.co) und Langform 

USER_MENTIONS Eingebettete Mentions mit name, screen_name undID 


Für eine vollständige Liste siehe https://dev.twitter.com/overview/api/entities 
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A.4 Einschränkungen der REST APIs 


TITLE RESOURCE USER AUTH APP AUTH 
FAMILY 

GET APPLICATION/RATE_LIMIT_STATUS application 180 180 
GET FAVORITES/LIST favorites 15 15 
GET FOLLOWERS/IDS followers 15 15 
GET FOLLOWERS/LIST followers 15 30 
GET FRIENDS/IDS friends 15 15 
GET FRIENDS/LIST friends 15 30 
GET FRIENDSHIPS/SHOW Friendships 180 15 
GET LISTS/LIST lists 15 15 
GET LISTS/MEMBERS lists 180 15 
GET LISTS/MEMBERS/SHOW lists 15 15 
GET LISTS/MEMBERSHIPS lists 15 15 
GET LISTS/OWNERSHIPS lists 15 15 
GET LISTS/SHOW lists 15 15 
GET LISTS/STATUSES lists 180 180 
GET LISTS/SUBSCRIBERS lists 180 15 
GET LISTS/SUSCRIBERS/SHOW lists 15 15 
GET LISTS/SUBSCRIPTIONS lists 15 15 
GET SEARCH/TWEETS search 180 450 
GET STATUSES/LOOKUP statuses 180 60 
GET STATUSES/RETWEETERS/IDS statuses 15 60 
GET STATUSES/RETWEETS/:ID statuses 15 60 
GET STATUSES/SHOW/:ID statuses 180 180 
GET STATUSES/USER_TIMLINE statuses 180 300 
GET TRENDS/AVAILABLE trends 15 15 
GET TRENDS/CLOSEST trends 15 15 
GET TRENDS/PLACE trends 15 15 
GET USERS/LOOKUP users 180 60 
GET USERS/SHOW users 180 180 


Siehe auch https://dev.twitter.com/rest/public/rate-limits 


Anhang B - Programmcode zur Inhaltsanalyse des 
Franken-Tatorts aus Kapitel 4.3.3.2 


from pymongo import MongoClient as MC 

import datetime, nltk 

import pandas as p 

import matplotlib.pyplot as mpl 

from pandas.tseries.resample import TimeGrouper 
from pandas.tseries.offsets import DateOffset 
from nltk import FreqDist 

from nltk.corpus import stopwords 

from nltk.collocations import * 


# Verbindung zur MongoDB 
def mdb_conn (host, port, username, password, db): 
mongo uri = "mongodb://{0}:{1}@{2}:{3}/{4}". format ( 
username, password, host, port, db) 
conn = MC(mongo_ uri) 
return conn[db] 


def mdb reader (db, collection, query={}, host="<Host-IP>", 

port=27017, username="<DB-Benutzer>", 
password="<Passwort>", no id=True) : 

db = mdb _ conn(host=host, port=port, username=username, 

password=password, db=db) 

cursor = db[collection].find(query) 

frame = p.DataFrame (list (cursor) ) 

if no_id: 

del frame[" id"] 
return frame 


dbase = "tatort" 
coll = "dt tweets" 


# Korpus-Reader für Collection 
tweetkorp = mdb reader (dbase, coll) 
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# Plotte Tweets nach Zeit 

tweetkorp.set index("created at", inplace=True) 
tweetkorp.index = tweetkorp.index.tz localize('GMT'). 
tz_convert('CET') 
tweetkorp.index.name = "Zeit" 

tweetkorp.index 

tweetkorp.tail(10) 

hashtag = "Tatort" 


tweetsperminute = tweetkorp['text'].resample('1t', 
how='count') 
mpl.figure (figsize=(16,6)) 

tweetsperminute.plot () 

mpl.grid(None) 
mpl.savefig("tweetsperminute") 


#Tokenisierung 
stop en = stopwords.words('english') 
stop de = stopwords.words('german') 


text = tweetkorp[u'text'] 


stop en = stopwords.words('english') 
stop de = stopwords.words('german') 
customstopwords = ["tatort", "warum", "dass", "immer", 


"schon", "gleich", "gerade", "jetzt", 
"mal", "heute", "erst", "macht", 
"eigentlich", "gibt", "gar", "beim", 
"ganz", "wer", "mehr", "wohl"] 
tokens = [] 
sentences = [] 
for txt in text.values: 
sentences.append (txt.lower ()) 
tokens.extend([t.lower () .encode('utf-8').strip(":,.!?") 
for t in txt.split()]) 


# Wortfilter 


mentions = [wrd for wrd in tokens if wrd.startswith("@")] 
hashtags = [wrd for wrd in tokens if wrd.startswith("#")] 
links = [wrd for wrd in tokens if wrd.startswith ("www") or 


wrd.startswith("http")] 
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sel _ tokens = [wrd for wrd in tokens \ 
if not wrd in (customstopwords and 
stop en and stop de and 
mentions and hashtags and 
links) \ 
and wrd.isalpha() \ 
and not len(wrd)<3] 


# Wortfilter 2 (ohne Entities) 
sel tokens2 = [wrd for wrd in tokens \ 
if wrd.isalpha() \ 
and not wrd in (mentions and links) ] 


# Plotte Top 20 Wörter 
freqdist = nltk.FreqDist(sel_ tokens) 
freqdist.plot (20) 


# Konkordanzen für "gut" 

tweettokens = nltk.wordpunct tokenize (unicode (sentences). 
encode ('utf-8"')) 

rawtweettext = nltk.Text (tweettokens) 

rawtweettext.concordance ("gut") 


# Kollokationen 
tweettext = nltk.Text (sel_tokens2) 
tweettext.collocations() 


# Bigramme, die "gut" enthalten 

bigram measures = nltk.collocations.BigramAssocMeasures() 
gut_filter = lambda *wrd: "gut" not in wrd 

bigrams = BigramCollocationFinder.from words (tweettext) 
bigrams.apply freq filter(10) 
bigrams.apply ngram filter(gut_filter) 

print bigrams.nbest (bigram measures.likelihood ratio, 20) 


# Sentiment-Analyse - NBK trainieren 
training set=[] 
import csv 


posWrds = csv.reader (open ("<Pfad>/sentiws_pos.txt", 'rb'), 
delimiter='|') 

training set.extend([(pos[0].lower(), 'positive') for pos in 
posWrds]) 

negWrds = csv.reader (open ("<Pfad>/sentiws neg.txt", 'rb'), 


delimiter='|') 
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training set.extend([(neg[0].lower(), 'negative') for neg in 


negWrds]) 
posTweet = ["Das war ein guter", \ 
u"super quote fürn Franken-Dadord", \ 
"Spitze", \ 


"ich mochte den tatort gestern", \ 
"bassd scho", \ 

"Guter", \ 

"gelungener Start", \ 

"spannend bis zum schluss", \ 
"bester tatort seit langem", \ 

" top" ; \ 

Ein skurriler tatort heut #ilike", \ 
"erstaunlich guter", \ 

u"Wirklich überraschend dieser", \ 
"Grandios"] 


" 


training_set.extend([(posTweets.lower(), 'positiv') for 
posTweets in posTweet]) 


negTweet = ["Langweilig", \ 
u"Blöder", \ 
u"einfach lächerlich! umschalten", \ 
"er soll sterben", \ 
"laien-theater", \ 
u"tatort war echt enttäuschend", \ 
"absolute einschlafhilfe", \ 
"abschalten bei dem mist", \ 
u"absehbar, wer der mörder ist", \ 
"was will dieser justin bieber", \ 
u"ich hab so ein ungutes gefühl", \ 
"Justin bieber", \ 
"so ein praktikant mit der waffe", \ 
"was will dieser bubi", \ 
u"Warum tragen die frauen im heutigen #tatort \ 

so miese perücken?", \ 

u"die Musik stört", \ 
"Ich schalte um"] 


training set.extend([(negTweets.lower(), 'negativ') for 
negTweets in negTweet]) 


Anhang B 145 


samples = freqdist.keys() [:3000] 


# Feature-Extraktion 
all words = nltk.FreqDist(w.lower() for w in tweettokens) 
samples = list (all words) [:2000] 


def tweet features (tweet): 
features={} 
for word in samples: 
features["contains({})".format(word)] = 
(word in tweet) 
return features 


training = [(tweet_features(word), sentiment) for (word, 
sentiment) in training set] 
classifier = nltk.NaiveBayesClassifier. 
train (training) 
classifier.show_ most informative features (14) 


[1 
[1 


positivTweets 
negativTweets 


for twt in tweetkorp.text: 
twts = classifier.classify(tweet features(twt)) 

if twts=='positiv': 
positivTweets.append (twt) 

else: 
negativTweets.append (twt) 


def classifytweet (dataframe): 
return classifier.classify(tweet features ( 
dataframe.text)) 


tweetkorp[ 'sentiment'] = tweetkorp.apply(classifytweet, 
axis=1) 


# Plotte Stimmung auf Zeit 

mpl.figure (figsize=(20,6)) 

pd.ewma (tweetkorp.sentiment.str.match('positiv'). 
resample('1t'), 2).plot(color='#aaaaaa', 
linewidth=1.5) 

mpl.ylim(0,1) 

mpl.grid (None) 

mpl.axhline (0.5) 


146 Anhang B 


mpl.axvline(datetime(2015, 4, 12, 18, 15, 0, 0), color='r', 
linewidth=4.0) 

mpl.axvline(datetime(2015, 4, 12, 19, 45, 0, 0), color='r', 
linewidth=4.0) 

mpl.savefig('sentiment-%s.png' % hashtag, 
box_inches='tight', dpi=300) 


